python - LDA Gensim OOM Exception 因为大语料库
问题描述
我已经经历了其他线程,其中指定在 LDA 中内存与numberOfTerms*numberOfTopics成正比。就我而言,我有两个数据集。在数据集中,AI 有 25 万个文档和大约 50 万个术语,我可以轻松地运行约 500 个主题。但是在数据集中,BI 有大约 200 万个文档和 50 万个术语(我们经过一些过滤后到达这里),但是在这里我只能运行到 50 个以上的主题,它会引发内存异常。
所以只是想了解是否只有术语和主题的数量对记忆很重要,为什么文档数量会导致这个问题,是否有任何快速的解决方法可以避免这种情况。
注意:我知道语料库可以作为memory-efficient-lda-training-using-gensim-library中指定的可迭代对象进行包装,但假设我已经将语料库加载到内存中,因为我在保留输入数据方面有一些其他限制不同的格式,因此它可以在不同的平台上针对不同的算法运行。关键是在将整个语料库加载到内存中后,我可以针对较少数量的主题运行它。那么是否有任何解决方法可以帮助它运行更多主题。例如,我在想调整 chunksize 可能会有所帮助,但这没有用。
解决方案
推荐阅读
- clion - 如何在 CLion 2018.2 中切换工具链?
- javascript - 设置 width : 0 不隐藏文本
- excel - 使用单元格值过滤日期之间的数据透视表
- c# - 我正在尝试在 C# 中创建一个插件来验证 mailItem.Body 以避免特定内容,但是当我发送消息时我的事件没有激活
- jquery - 首次打开后引导模式不起作用
- python - 使用 PyGithub 在 Github 中获取用户信息
- kibana - 在 Kibana DSL 查询中查找特定序列中的关键字
- google-sheets - 根据某些条件将两列过滤为一列
- r - 检索时间格式以在 R 中转换为秒
- java - 引起:java.net.UnknownHostException:host.docker.internal