python - scikit-learn CountVectorizer。词汇_
问题描述
我有以下示例:
sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']
vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_
输出:
{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}
那么这些数字代表什么?我不明白。
解决方案
这是从单词到它的ID的映射
当在向量上调用 fit 时,每个单词都将映射到字典中的值。
推荐阅读
- java - 如何更改 PDF 文件中图像的过滤器
- python - 在特定条件下聚合 Dataframe 中的行值
- linux - 使用 Bash 脚本通过 SSH 输出服务器上的所有文件夹
- java - 如何在响应正文中返回 WireMock 服务器端口
- css - 如何使“Reactjs Modal”出现在屏幕上从右到中心飞
- ffmpeg - ffmpeg fade 未应用于 atrim
- android - java.lang.IllegalArgumentException:平台类 java.time.LocalDateTime(没有注释)需要显式 JsonAdapter
- javascript - 这个增加/减少数字的 JavaScript 函数有哪些替代方法?
- android - 将分页库与 RecyclerView 以外的东西一起使用
- c++ - 对象的破坏是否正确发生?