首页 > 解决方案 > 机器学习文本比较模型

问题描述

标签: tensorflowmachine-learningtextnlpartificial-intelligence

解决方案


我认为TF-IDF可能非常适合您的问题,因为:

  1. 对出现在许多文档中的单词的强调(例如,90% 的句子/文档包含连词“and”)要小得多,本质上更重视文档特定的短语(这是 IDF 部分)。
  2. 与使用滑动窗口等的方法相反,按词频 (TF) 排序并不重要。
  3. 与上面提到的面向表示的方法相比,它非常轻量级。

大缺点:根据语料库的大小,您的数据可能有太多维度(与唯一词相同的维度数),您可以使用词干提取/词形还原在一定程度上缓解此问题。

例如,您可以使用余弦相似度计算两个 TF-IDF 向量之间的相似度。

编辑:哎呀,这个问题已经 8 个月大了,对不起,也许它对其他人有用。


推荐阅读