首页 > 解决方案 > 关于 textstat_simil 和 textstat_dist 的问题(Lit Review 相关)

问题描述

如果这是一个荒谬的问题,我深表歉意。我不熟悉使用 Quanteda 并将文本挖掘应用到我的领域。

我试图了解 textstat_simil 和 textstat_dist 函数之间的区别,并且很好奇是否有一些我可以阅读的文章可以阐明这些。我发现的大多数文献都将相似性和距离放在同一个保护伞下,并在同一个讨论中区分“余弦”和“欧几里得”等方法。我很好奇 quanteda 中发生了什么不同。

再次,如果这是一个荒谬的问题,我深表歉意。我发现 quanteda 在通过定量主题缩小指导定性阅读方面非常有用,我只是想确保我完全理解这里发生的事情。从通过 NLTK 学习此内容切换后,我只使用了该套件一小段时间。

标签: quanteda

解决方案


差异来自背后的数学以及距离和相似性是什么以及如何测量它们的一般目的。

textstat_dist()返回使用欧几里得或曼哈顿方法等计算的距离分数。例如,欧几里得距离测量两个事物在笛卡尔空间中的距离。

textstat_simil()返回用余弦、相关、jaccard、骰子等方法计算的相似度分数。相反,这些告诉你两个对象是如何相似的。


推荐阅读