r - 使用 LDA 随时间分布主题
问题描述
我的目标是识别推文的主题并可视化主题的分布如何随时间变化。据我所知,最好的方法是使用 stm 包,但我有一些问题。所以,我唯一的选择是做一个简单的LDA。
根据每条推文的主题份额,我汇总了每年的主题份额,并将每个主题份额与每年的总数进行了比较(与此处相同的方式https://towardsdatascience.com/thats-mental-使用-lda-topic-modeling-investigate-the-discourse-on-mental-health-over-time-11da252259c3)。最终的可视化效果类似于: 随着时间推移的主题
我的问题是是否可以随着时间的推移使用 LDA 可视化主题,在 STM 中这样做有什么意义?有什么重要的区别吗?
解决方案
事后分析是衡量一段时间内主题流行度的好方法。LDA 没有明确学习代表年份和主题之间关系的参数,但正如您所发现的,这并不意味着不存在关系。
LDA 通常不适用于推文等短文档。你也可以试试k-means。
如果您想以使用任何其他回归模型的方式对关系进行论证,STM 会很有帮助。这样做的好处是您可能会获得与您的协变量更一致的主题,但这通常不是必需的。
从视觉上看,我真的不喜欢随着时间的推移结果的主题流图。例如,由于 2000 年的艺术高峰,你无法判断那一年其他主题是否发生了变化,因为它们都被从上面“推到一边”了。为每个主题提供自己的面积图可以更轻松地查看各个趋势。
推荐阅读
- java - 上下文在 Fragment .onStart() 方法中不可用
- javascript - 我无法理解这个 javascript 代码片段的含义。有人可以逐行发表评论吗?
- visual-prolog - 序言中的错误“此位置的非法变量类型”
- python - 更改现有网络驱动程序中的 ChromeOptions
- node.js - 无法在邮递员的 pump.io api 上注册新用户
- android - 在 XML 中添加材质按钮导致应用程序崩溃
- email - 即使给出 250 OK,Gmail 也不会发送电子邮件
- javascript - 使用传递给函数的参数调用 Json 对象
- unit-testing - Modelica (OpenModelica) 中参数的单位定义,在参数文件范围内找不到
- javascript - React refs:无法读取 null 的属性“焦点”