首页 > 解决方案 > 动态主题建模:如何将我的文本数据从文章分离到段落并将它们应用于模型?

问题描述

gensim.models.ldaseqmodel用来在 python 中进行动态主题建模分析。我使用了所有中文文章(近 500 篇)作为数据框中的语料库,但每个主题的单词没有很好地分离。

数据集如下所示:在此处输入图像描述

re.compile('\n',re.S)因此,当我从数据框中的文本变量中检索所有文章到另一个时,我尝试将这些文章分成段落txt.flie。它生成了超过 30000 个段落(似乎太多了,可能是由于某些文章喜欢有非常短的段落),但是,现在 DTM 模型不再工作了,错误是这样的:

IndexError: index 21 is out of bounds for axis 1 with size 21

该模型的代码很简单,如下所示:

ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpus, id2word=dictionary, time_slice=time_slice,num_topics=10,lda_inference_max_iter=15,em_max_iter=10,chain_variance=1)

我想这是因为我的 time_slice 是从数据框中收集的,但语料库和字典是从 txt.file 中获得的。

我正在考虑如何将我的文本变量剪切为数据帧中的段落(所以,我猜,time_sclice 可能与语料库相关),或者我如何将我必须的语料库连接到 time_slice。但是我不知道该怎么做,所以我在这里寻求帮助。

自从我主修社会科学以来,我在 python 和编码方面的知识真的很有限,如果您对此有任何想法,我非常感谢您的帮助。谢谢!

标签: pythonnlptopic-modeling

解决方案


推荐阅读