首页 > 解决方案 > 如何增加文档标题的重要性以便为文档聚类找到好的特征?

问题描述

我收集了 100 万个长度不同的文档,但每个文档的标题在 1 到 5 个单词之间。我想对这些文档进行聚类,以便找到相似文档组(与同一主题相关)。有什么好的方法可以为标题中的术语增加更多权重,以便可以认为具有相似标题的文档更有可能属于同一类?我已经尝试过使用 tf-idf 表示,但我想尝试其他加权方法。

标签: machine-learningcluster-analysisterm

解决方案


在计算 TF 值时,所有基于 TF 的方法都允许加权。

对于整数权重,这与简单地重复多次标题相同。该方法也可以与其他方法一起使用(但哪种方法不是基于 TF 的?)

只需检查 Apache Luene 的功能。


推荐阅读