python - 动态主题建模:如何将我的文本数据从文章分离到段落并将它们应用于模型?
问题描述
我gensim.models.ldaseqmodel
用来在 python 中进行动态主题建模分析。我使用了所有中文文章(近 500 篇)作为数据框中的语料库,但每个主题的单词没有很好地分离。
re.compile('\n',re.S)
因此,当我从数据框中的文本变量中检索所有文章到另一个时,我尝试将这些文章分成段落txt.flie
。它生成了超过 30000 个段落(似乎太多了,可能是由于某些文章喜欢有非常短的段落),但是,现在 DTM 模型不再工作了,错误是这样的:
IndexError: index 21 is out of bounds for axis 1 with size 21
该模型的代码很简单,如下所示:
ldaseq = ldaseqmodel.LdaSeqModel(corpus=corpus, id2word=dictionary, time_slice=time_slice,num_topics=10,lda_inference_max_iter=15,em_max_iter=10,chain_variance=1)
我想这是因为我的 time_slice 是从数据框中收集的,但语料库和字典是从 txt.file 中获得的。
我正在考虑如何将我的文本变量剪切为数据帧中的段落(所以,我猜,time_sclice 可能与语料库相关),或者我如何将我必须的语料库连接到 time_slice。但是我不知道该怎么做,所以我在这里寻求帮助。
自从我主修社会科学以来,我在 python 和编码方面的知识真的很有限,如果您对此有任何想法,我非常感谢您的帮助。谢谢!
解决方案
推荐阅读
- tensorflow - 在深度学习之外对 Google TPU 进行编程
- reactjs - 如何获取句柄按钮中单击的行的值
- reactjs - 如何在 Strapi + React + Apollo 中修复或查询启发式片段
- angular - Angular 9 请添加@NgModule 注解
- python - VS Code 中的 Python 告诉我一个数字小于一个较小的数字
- flutter - 如何修复启动自定义启动画面时生成的错误?
- python-3.x - Python & Tensorflow & CUDA 环境设置问题
- unity3d - 在 Unity 中构建 Mapbox
- sqlite - 如何将 Ubuntu 18.04 sqlite3 从 3.13 升级到新版本 3.25
- ios - 使用“执行segue”传递错误返回nil?