r - 我可以使用哪些方法来计算 quanteda 中单词之间的相关性?
问题描述
我的问题是这个的延续。
在清理我的文本数据并使用 可视化它之后wordcloud
,我想看看哪些单词是相互关联的。问题来了:
quanteda
有这个功能textstat_simil
,但是说 的相似。那么,在这种情况下,“相似性”和“相关性”是一回事吗?(距离也相关吗?)。此外,我的dfm看起来像一个二进制矩阵。在这种情况下 phi 相关性(来自卡方统计)是否更显示?我可以通过这个计算
quanteda
吗?- 你们有没有其他内容而不是github的源代码更详细地解释了计算相似度或距离度量的方法?(我无法从 这段 代码中理解,抱歉)。
谢谢你的耐心!
解决方案
要计算特征之间的 Pearson 积矩相关性,您可以使用:
textstat_simil(x, method = “correlation”, margin = “features”)
文档清楚地说明了这一点,并且关联方法是默认值。
Pearson 的相关性不是最适合二进制数据的,我们目前没有实施 Spearman 或其他更适合分类或有序数据的相关方法。但是,您始终可以将 dfm 强制转换为普通矩阵(使用as.matrix()
),然后使用stats::cor()
包括 Spearman 在内的方法。
至于最后一个问题,我们采用这些措施的标准执行。如果您想更清楚地了解它们的含义,我建议您询问 Cross-Validated。
推荐阅读
- python - ImportError:无法从“google.cloud”(未知位置)导入名称“pubsub_v1”
- r - 给定另一列的值,如何计算一列中某物的实例?
- java - 是否有以这种方式重新排列二维数组的公式?
- amazon - Amazon Transcribe 转换 .json 成绩单
- react-native - React Native not installing properly
- grafana - Aggregating Grafana to the Most Current Data
- javascript - 过滤嵌套的 JSON 数据
- heroku - dyno 重新启动后运行 rake 任务
- c++ - 在可变参数宏中找出 __VA_ARGS__ 的类型
- ionic-framework - 如何将我的 sqlite3 数据库中的数据导出到一些 json 或 csv 文件