首页 > 解决方案 > 文本分类:原始字典输入和文本向量化

问题描述

我正在使用一系列 sklearn 分类器进行一些文本处理。在我在互联网上找到的一个示例中,我注意到分类器的输入是一系列字典项:

({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')

({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')

这些项目被传递到分类模型(例如,sklearn LinearSVC)。我在 sklearn 站点中发现,在文本分类中,文本数据使用某种技术转换为向量,例如,HashingVectorizer但我找不到任何关于如何处理上述字典输入的文档。是否可以对这个输入案例中遵循的程序提供一些解释?

标签: scikit-learnnatural-language-processing

解决方案


根据文档,它对它获得的文本进行标记(您可以自定义如何标记文本,一个正则表达式,告诉您认为要省略的单词和停用词列表),并为每个幸存的标记计算哈希,这是一个介于 0 和n_features(矢量化器的另一个参数)之间的数字。

CountVectorizer不同,您始终可以肯定,您拥有完全n_features的特征,但您确实冒着散列冲突的风险。


推荐阅读