tensorflow - 机器学习文本比较模型
问题描述
解决方案
我认为TF-IDF可能非常适合您的问题,因为:
- 对出现在许多文档中的单词的强调(例如,90% 的句子/文档包含连词“and”)要小得多,本质上更重视文档特定的短语(这是 IDF 部分)。
- 与使用滑动窗口等的方法相反,按词频 (TF) 排序并不重要。
- 与上面提到的面向表示的方法相比,它非常轻量级。
大缺点:根据语料库的大小,您的数据可能有太多维度(与唯一词相同的维度数),您可以使用词干提取/词形还原在一定程度上缓解此问题。
例如,您可以使用余弦相似度计算两个 TF-IDF 向量之间的相似度。
编辑:哎呀,这个问题已经 8 个月大了,对不起,也许它对其他人有用。
推荐阅读
- testng - “数据:”在地址栏中 chromedriver(带有 testng 的 maven 项目)
- .net - Labview 使用带有 3rd 方 dll 的 .net 列表类型
- android - react native 中的 createDrawerNavigator
- filter - 在 Excel 中过滤多维数据集 - 无法正常工作
- c# - 如何使结构接收不是系统变量的变量
- spring-kafka - 类级别的 KafkaListener 注释,忽略错误处理程序属性
- symfony - Symfony 3.4 试图调用类“AppBundle\Entity\User”的名为“createQueryBuilder”的未定义方法
- c++ - CMake:为 add_custom_target 添加可执行文件
- c# - 从我的应用程序的任何地方将文本附加到 RichTexBox
- python - 使用 pyspark 将 csv 文件转换为 parquet 文件:Py4JJavaError: An error occurred while calling o347.parquet error