首页 > 解决方案 > 使用 LDA 随时间分布主题

问题描述

我的目标是识别推文的主题并可视化主题的分布如何随时间变化。据我所知,最好的方法是使用 stm 包,但我有一些问题。所以,我唯一的选择是做一个简单的LDA。

根据每条推文的主题份额,我汇总了每年的主题份额,并将每个主题份额与每年的总数进行了比较(与此处相同的方式https://towardsdatascience.com/thats-mental-使用-lda-topic-modeling-investigate-the-discourse-on-mental-health-over-time-11da252259c3)。最终的可视化效果类似于: 随着时间推移的主题

我的问题是是否可以随着时间的推移使用 LDA 可视化主题,在 STM 中这样做有什么意义?有什么重要的区别吗?

标签: rldatopic-modelingmallet

解决方案


事后分析是衡量一段时间内主题流行度的好方法。LDA 没有明确学习代表年份和主题之间关系的参数,但正如您所发现的,这并不意味着不存在关系。

LDA 通常不适用于推文等短文档。你也可以试试k-means。

如果您想以使用任何其他回归模型的方式对关系进行论证,STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题,但这通常不是必需的。

从视觉上看,我真的不喜欢随着时间的推移结果的主题流图。例如,由于 2000 年的艺术高峰,你无法判断那一年其他主题是否发生了变化,因为它们都被从上面“推到一边”了。为每个主题提供自己的面积图可以更轻松地查看各个趋势。


推荐阅读