首页 > 解决方案 > gensim tfidf 唯一标记数与特征数

问题描述

我想知道为什么特征的数量与唯一标记的数量不同,而是在我的情况下,它们相差一个(1236 vs 1235)

2018-06-19 04:54:45,158:信息:将文档 #0 添加到字典(0 个唯一标记:[])

2018-06-19 04:54:45,182:INFO:从 98 个文档(总共 10007 个语料库位置)构建字典(1236 个唯一标记:['.',':',.....]...)

2018-06-19 04:54:45,214:INFO:收集文档频率

2018-06-19 04:54:45,215:信息:进度:处理文档 #0

2018-06-19 04:54:45,219:INFO:计算 98 个文档和 1235 个特征的 IDF 权重(6993 个非零矩阵)

标签: gensim

解决方案


推荐阅读