r - 使用 LDA 随时间分布主题

我的目标是识别推文的主题并可视化主题的分布如何随时间变化。据我所知，最好的方法是使用 stm 包，但我有一些问题。所以，我唯一的选择是做一个简单的LDA。

根据每条推文的主题份额，我汇总了每年的主题份额，并将每个主题份额与每年的总数进行了比较（与此处相同的方式https://towardsdatascience.com/thats-mental-使用-lda-topic-modeling-investigate-the-discourse-on-mental-health-over-time-11da252259c3）。最终的可视化效果类似于：随着时间推移的主题

我的问题是是否可以随着时间的推移使用 LDA 可视化主题，在 STM 中这样做有什么意义？有什么重要的区别吗？

标签： rldatopic-modelingmallet

事后分析是衡量一段时间内主题流行度的好方法。LDA 没有明确学习代表年份和主题之间关系的参数，但正如您所发现的，这并不意味着不存在关系。

LDA 通常不适用于推文等短文档。你也可以试试k-means。

如果您想以使用任何其他回归模型的方式对关系进行论证，STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题，但这通常不是必需的。

从视觉上看，我真的不喜欢随着时间的推移结果的主题流图。例如，由于 2000 年的艺术高峰，你无法判断那一年其他主题是否发生了变化，因为它们都被从上面“推到一边”了。为每个主题提供自己的面积图可以更轻松地查看各个趋势。