gensim - gensim tfidf 唯一标记数与特征数
问题描述
我想知道为什么特征的数量与唯一标记的数量不同,而是在我的情况下,它们相差一个(1236 vs 1235)
2018-06-19 04:54:45,158:信息:将文档 #0 添加到字典(0 个唯一标记:[])
2018-06-19 04:54:45,182:INFO:从 98 个文档(总共 10007 个语料库位置)构建字典(1236 个唯一标记:['.',':',.....]...)
2018-06-19 04:54:45,214:INFO:收集文档频率
2018-06-19 04:54:45,215:信息:进度:处理文档 #0
2018-06-19 04:54:45,219:INFO:计算 98 个文档和 1235 个特征的 IDF 权重(6993 个非零矩阵)
解决方案
推荐阅读
- php - 如何从表单获取值到我的 php 段?我的 php 段无法识别提交按钮
- reactjs - 当您在本地运行开发 API 时,在开发期间设置 API 引用的正确方法是什么?
- scala - 哪个更好:var 与 mutable.ListMap 或 var 与 immutable.ListMap?
- flutter - 如何在 Flutter 中使搜索结果可点击
- c# - 如何将基础对象的 List<> 继承为派生对象的 List<>?
- javascript - 试图理解对象映射的 reduce 函数?
- ruby - 如何测试 DelayedJob 是否正在调用另一个类的方法?
- node.js - toObjectId 用于查找和聚合的字符串数组
- c# - 对 IDisposable 的弱引用
- activemq - 如何控制 Hub/Spoke 拓扑中的帧大小