首页 > 解决方案 > 文本相似度的分组算法

问题描述

所以我正在研究一个项目,基于 Chali 在他的“Document Clustering with Grouping and Chaining Algorithms”研究论文中的分组算法。

我已经到了第 4.1 节。我试图在查找有关同一主题的文章的上下文中理解,集群重叠是什么意思?

我已经确定了文章之间的余弦相似度得分。例如

所以说文章x是监护人文章

{

文章 1 - 与文章 x 相比,cnn 文章 0.1 余弦分数(无阈值)

文章 2 - 与文章 x 相比,cnn 文章余弦 0.8 余弦分数(插入高阈值簇)

文章 3 - 与文章 x 相比,cnn 文章余弦 0.5 余弦分数(插入低阈值集群)

}

我的问题是,我是否正确识别了集群?例如,我可以将来自其他出版商的故事混合到这个集群中吗?

当文章说“如果不超过 2 个文本与最终集群重叠,那么我们将此组作为最终集群”。解释这对我来说也很困难,就像我说的我不确定“重叠”是什么意思。

谢谢您的帮助!

标签: nlpsimilaritycosine-similaritylinguistics

解决方案


推荐阅读