首页 > 解决方案 > 文档以外的不同变量的主题比例

问题描述

我在 reddit 数据中运行 stm。我已将 reddit 帖子分类为不同的仇恨言论,如反亚洲、反黑人等。我想计算给定仇恨言论成为特定主题的概率。

例如,我希望结果是这样的:主题 1 的 30% 是反亚洲的,主题 1 的 70% 是反黑人的,并且对于我拥有的所有主题数量来说都是如此。

另外,我想要另一个表格,其结果是反亚洲是我所有主题的 5%,而 95% 的主题是反黑人。

posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE

标签: rtopic-modeling

解决方案


预期概率是该二元出现向量的相对丰度,可计算如下:

anti_asian <- c(TRUE, FALSE, TRUE)
table(anti_asian)[["TRUE"]]/length(anti_asian)
#> [1] 0.6666667

reprex 包于 2021-11-12 创建(v2.0.1)


推荐阅读