首页 > 解决方案 > 我可以使用哪些方法来计算 quanteda 中单词之间的相关性?

问题描述

我的问题是这个的延续

在清理我的文本数据并使用 可视化它之后wordcloud,我想看看哪些单词是相互关联的。问题来了:

  1. quanteda有这个功能textstat_simil,但是说 的相似。那么,在这种情况下,“相似性”和“相关性”是一回事吗?(距离也相关吗?)。

  2. 此外,我的dfm看起来像一个二进制矩阵。在这种情况下 phi 相关性(来自卡方统计)是否更显示?我可以通过这个计算quanteda吗?

  3. 你们有没有其他内容而不是github的源代码更详细地解释了计算相似度或距离度量的方法?(我无法从 这段 代码中理解,抱歉)。

谢谢你的耐心!

标签: rnlpcorrelationquanteda

解决方案


要计算特征之间的 Pearson 积矩相关性,您可以使用:

textstat_simil(x, method = “correlation”, margin = “features”)

文档清楚地说明了这一点,并且关联方法是默认值。

Pearson 的相关性不是最适合二进制数据的,我们目前没有实施 Spearman 或其他更适合分类或有序数据的相关方法。但是,您始终可以将 dfm 强制转换为普通矩阵(使用as.matrix()),然后使用stats::cor()包括 Spearman 在内的方法。

至于最后一个问题,我们采用这些措施的标准执行。如果您想更清楚地了解它们的含义,我建议您询问 Cross-Validated。


推荐阅读