r - 应用于主题建模时“增强”背后的细节
问题描述
我对 Silge 和 Robinson 的“Text Mining with R: A Tidy Approach”教科书中的“增强”功能有疑问。在语料库上运行 LDA 后,我正在应用“增强”为每个单词分配主题。
我得到了结果,但不确定“增强”背后的“幕后”发生了什么,即如何使用贝叶斯框架确定每个单词的主题。它只是基于条件概率公式,并在使用 p(topic|word)=p(word|topic)*p(topic)/p(word) 拟合 LDA 后估计?
如果有人可以提供有关“增强”如何做到这一点的统计详细信息,我将不胜感激。您能否也请提供有关文件的参考资料。
解决方案
tidytext 包是开源的,位于 GitHub 上,因此您可以augment()
自己挖掘代码。我建议看看
要了解有关这些方法的更多信息,有一篇关于结构主题模型的优秀论文/插图,我喜欢LDA 的 Wikipedia 文章。