scikit-learn - 文本分类:原始字典输入和文本向量化
问题描述
我正在使用一系列 sklearn 分类器进行一些文本处理。在我在互联网上找到的一个示例中,我注意到分类器的输入是一系列字典项:
({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')
({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')
这些项目被传递到分类模型(例如,sklearn LinearSVC
)。我在 sklearn 站点中发现,在文本分类中,文本数据使用某种技术转换为向量,例如,HashingVectorizer
但我找不到任何关于如何处理上述字典输入的文档。是否可以对这个输入案例中遵循的程序提供一些解释?
解决方案
根据文档,它对它获得的文本进行标记(您可以自定义如何标记文本,一个正则表达式,告诉您认为要省略的单词和停用词列表),并为每个幸存的标记计算哈希,这是一个介于 0 和n_features
(矢量化器的另一个参数)之间的数字。
与CountVectorizer不同,您始终可以肯定,您拥有完全n_features
的特征,但您确实冒着散列冲突的风险。
推荐阅读
- php - 如何更改在 kubeapps kubernetes 上运行的 wordpress 中的 php 值
- sql - 这个存储过程不执行,我做错了什么?
- sql - 按周查询过滤
- python - 从可以是 A、B 或 C 的 n 个字符中生成所有单词的函数
- python - 在 Tkinter 中设置背景
- c++ - 在清除 istream 之前,我不需要取消它吗?
- sql - 如何使用主机和端口进行 SQL Server 连接
- javascript - Vue js如何使用laravel根据数据库值自动选择复选框
- php - 有没有更有效的更新数据库值?
- reactjs - 如何绑定两个 const 数据形成一个反应表