r - 文档以外的不同变量的主题比例
问题描述
我在 reddit 数据中运行 stm。我已将 reddit 帖子分类为不同的仇恨言论,如反亚洲、反黑人等。我想计算给定仇恨言论成为特定主题的概率。
例如,我希望结果是这样的:主题 1 的 30% 是反亚洲的,主题 1 的 70% 是反黑人的,并且对于我拥有的所有主题数量来说都是如此。
另外,我想要另一个表格,其结果是反亚洲是我所有主题的 5%,而 95% 的主题是反黑人。
posts <- c("i dislike asian", "i dislike black")
anti-asian <- TRUE, FALSE
anti_black <- FAlSE, TRUE
解决方案
预期概率是该二元出现向量的相对丰度,可计算如下:
anti_asian <- c(TRUE, FALSE, TRUE)
table(anti_asian)[["TRUE"]]/length(anti_asian)
#> [1] 0.6666667
由reprex 包于 2021-11-12 创建(v2.0.1)
推荐阅读
- javascript - Javascript比较map函数中的两个数组
- erlang - 什么是损坏的序列化 SCRAM 错误?
- python - Python MQTT 提高了图像 numpy 数组的发布速度
- c# - 无法从传输连接读取数据:net_io_connectionclosed
- amazon-web-services - Aws Auto Scaling 使用 Bamboo 作为 CICD 工具
- powershell - 仅列出特定 OU 之外的禁用 AD 帐户并导出到 .CSV
- php - 在 var/www/html 中部署 Laravel
- android - 如何在图像视图中获取图像的坐标?
- android - JobIntentService onDestroy 中的空指针异常
- javascript - 在不使用 gulp 或 webpack 的情况下自动压缩 js 和 css 文件并检查源文件的任何更改