首页 > 解决方案 > 应用于主题建模时“增强”背后的细节

问题描述

我对 Silge 和 Robinson 的“Text Mining with R: A Tidy Approach”教科书中的“增强”功能有疑问。在语料库上运行 LDA 后,我正在应用“增强”为每个单词分配主题。

我得到了结果,但不确定“增强”背后的“幕后”发生了什么,即如何使用贝叶斯框架确定每个单词的主题。它只是基于条件概率公式,并在使用 p(topic|word)=p(word|topic)*p(topic)/p(word) 拟合 LDA 后估计?

如果有人可以提供有关“增强”如何做到这一点的统计详细信息,我将不胜感激。您能否也请提供有关文件的参考资料。

标签: rtext-miningldatopic-modelingtidytext

解决方案


tidytext 包是开源的,位于 GitHub 上,因此您可以augment()自己挖掘代码。我建议看看

  • augment()对于来自topicmodels包的 LDA
  • augment()对于来自stm包的结构主题模型

要了解有关这些方法的更多信息,有一篇关于结构主题模型的优秀论文/插图,我喜欢LDA 的 Wikipedia 文章


推荐阅读