nlp - 文本相似度的分组算法
问题描述
所以我正在研究一个项目,基于 Chali 在他的“Document Clustering with Grouping and Chaining Algorithms”研究论文中的分组算法。
我已经到了第 4.1 节。我试图在查找有关同一主题的文章的上下文中理解,集群重叠是什么意思?
我已经确定了文章之间的余弦相似度得分。例如
所以说文章x是监护人文章
{
文章 1 - 与文章 x 相比,cnn 文章 0.1 余弦分数(无阈值)
文章 2 - 与文章 x 相比,cnn 文章余弦 0.8 余弦分数(插入高阈值簇)
文章 3 - 与文章 x 相比,cnn 文章余弦 0.5 余弦分数(插入低阈值集群)
}
我的问题是,我是否正确识别了集群?例如,我可以将来自其他出版商的故事混合到这个集群中吗?
当文章说“如果不超过 2 个文本与最终集群重叠,那么我们将此组作为最终集群”。解释这对我来说也很困难,就像我说的我不确定“重叠”是什么意思。
谢谢您的帮助!
解决方案
推荐阅读
- huawei-mobile-services - (Flutter) Huawei Location Kit - 经纬度 null
- java - Java正则表达式附加两个字符串
- chatbot - 使用后如何在 watson 助手中清除上下文变量
- gradle - 无法解析配置 ':classpath' 的所有依赖项。用模拟器运行
- javascript - 两个滑块上的网络音频音量变化
- kubernetes - 错误核心:查找令牌失败:错误=无法读取条目,拨打 tcp [::1]:8500:getsockopt: Vault 日志中的连接被拒绝
- php - 显示来自数据库的 json
- python - 比较函数的 int 输出并创建单一分数
- java - 如何从具有对象列表和一个对象列表的模型实体映射到具有 Mapstruct 的单个域实体
- python-3.x - 为什么 rasa init 没有被执行?