首页 > 解决方案 > LDA Gensim OOM Exception 因为大语料库

问题描述

我已经经历了其他线程,其中指定在 LDA 中内存与numberOfTerms*numberOfTopics成正比。就我而言,我有两个数据集。在数据集中,AI 有 25 万个文档和大约 50 万个术语,我可以轻松地运行约 500 个主题。但是在数据集中,BI 有大约 200 万个文档和 50 万个术语(我们经过一些过滤后到达这里),但是在这里我只能运行到 50 个以上的主题,它会引发内存异常。

所以只是想了解是否只有术语和主题的数量对记忆很重要,为什么文档数量会导致这个问题,是否有任何快速的解决方法可以避免这种情况。

注意:我知道语料库可以作为memory-efficient-lda-training-using-gensim-library中指定的可迭代对象进行包装,但假设我已经将语料库加载到内存中,因为我在保留输入数据方面有一些其他限制不同的格式,因此它可以在不同的平台上针对不同的算法运行。关键是在将整个语料库加载到内存中后,我可以针对较少数量的主题运行它。那么是否有任何解决方法可以帮助它运行更多主题。例如,我在想调整 chunksize 可能会有所帮助,但这没有用。

标签: pythongensimldatopic-modeling

解决方案


推荐阅读