quanteda - 关于 textstat_simil 和 textstat_dist 的问题(Lit Review 相关)
问题描述
如果这是一个荒谬的问题,我深表歉意。我不熟悉使用 Quanteda 并将文本挖掘应用到我的领域。
我试图了解 textstat_simil 和 textstat_dist 函数之间的区别,并且很好奇是否有一些我可以阅读的文章可以阐明这些。我发现的大多数文献都将相似性和距离放在同一个保护伞下,并在同一个讨论中区分“余弦”和“欧几里得”等方法。我很好奇 quanteda 中发生了什么不同。
再次,如果这是一个荒谬的问题,我深表歉意。我发现 quanteda 在通过定量主题缩小指导定性阅读方面非常有用,我只是想确保我完全理解这里发生的事情。从通过 NLTK 学习此内容切换后,我只使用了该套件一小段时间。
解决方案
差异来自背后的数学以及距离和相似性是什么以及如何测量它们的一般目的。
textstat_dist()
返回使用欧几里得或曼哈顿方法等计算的距离分数。例如,欧几里得距离测量两个事物在笛卡尔空间中的距离。
textstat_simil()
返回用余弦、相关、jaccard、骰子等方法计算的相似度分数。相反,这些告诉你两个对象是如何相似的。
推荐阅读
- swift - Swift macOS 无法关闭打印对话框
- ruby-on-rails - 如何使用 Ruby On Rails 连接到 Microsoft Azure Key Vault 获取令牌并从 Vault 中读取值
- c - linux内核socket源宏container_of
- c# - 是否可以在使用本机视图的 Xamarin 应用程序中拥有一致的 NavBar 和 Footer?
- python - 安装 Pillow 后无法导入 PIL - venv 下的 Django 项目
- java - 如何将 botbuilder-java 导入现有的 Spring Boot 应用程序?
- asp.net - 使用没有角色的用户呈现 SelectList
- sql - 当我在关闭位置设置特定日期时,它可以工作,但是当我更改年份时,它不起作用。为什么?
- amazon-web-services - 故障转移后 RDS 数据库实例端点是否更改
- javascript - Reactjs-带有FormControlLabel的material-ui单选按钮-不起作用