machine-learning - 如何增加文档标题的重要性以便为文档聚类找到好的特征?
问题描述
我收集了 100 万个长度不同的文档,但每个文档的标题在 1 到 5 个单词之间。我想对这些文档进行聚类,以便找到相似文档组(与同一主题相关)。有什么好的方法可以为标题中的术语增加更多权重,以便可以认为具有相似标题的文档更有可能属于同一类?我已经尝试过使用 tf-idf 表示,但我想尝试其他加权方法。
解决方案
在计算 TF 值时,所有基于 TF 的方法都允许加权。
对于整数权重,这与简单地重复多次标题相同。该方法也可以与其他方法一起使用(但哪种方法不是基于 TF 的?)
只需检查 Apache Luene 的功能。
推荐阅读
- django - 带有mongoengine的django rest框架中不区分大小写的排序
- android - 如何使用 Android 代码从 Firebase 生成 CSV/Excel 文件
- javascript - Moment 库在 IE10 中返回不同的时间日期格式,但在 chrome 中工作正常
- python - 使用 pandas 向量化曲线拟合数据
- javascript - 将组件存储在 state 中时,它的 props 更改时不再重新渲染?
- html - dir=auto 属性在应用于段落标签时不起作用
- c# - C# .net 中等效的 SQL XML 数据类型
- r - 计算这些向量的嵌套子集的两个向量的最大值和最小值之间的差
- java - 使用 Apache Commons Net FTPClient 从 FTP 服务器循环读取多个文件
- c# - 检索具有 CLSID 的组件的 COM 类工厂 - 未注册类