python - MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组
问题描述
我正在尝试从 Wikipedia 文本数据中训练 word2vec 模型,因为我正在使用以下代码。
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print (globals()['__doc__'])
sys.exit(1)
inp, outp = sys.argv[1:3]
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
# trim unneeded model memory = use (much) less RAM
model.init_sims(replace=True)
model.save(outp)
但程序运行 20 分钟后,出现以下错误
解决方案
理想情况下,您应该将错误文本粘贴到问题中,而不是屏幕截图。但是,我看到了两条关键线:
<TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32
在对您的语料库进行一次遍历后,该模型已经知道有多少独特的单词可以存活,这报告了必须分配多大的模型:一个大约8777162200 bytes
(大约 8.8GB)。但是,当尝试分配所需的向量数组时,您会得到一个MemoryError
,这表明没有足够的计算机可寻址内存 (RAM) 可用。
您可以:
- 在有更多内存的地方运行,也许通过向现有系统添加 RAM;或者
- 减少所需的内存量,主要是通过减少您要训练的唯一词向量的数量或其维度大小。
min_count=5
您可以通过将默认参数增加到类似min_count=10
ormin_count=20
或来减少单词的数量min_count=50
。(您可能不需要超过 200 万个词向量 - 只需几万个词的词汇表就可以获得许多有趣的结果。)
您还可以设置一个max_final_vocab
值,以指定要保留的唯一单词的确切数量。例如,max_final_vocab=500000
将只保留 500000 个最常用的单词,而忽略其余的。
减少size
也将节省内存。的设置size=300
对于词向量很流行,并且会减少四分之一的内存需求。
总之,使用size=300, max_final_vocab=500000
应该将所需的内存减少到 2GB 以下。
推荐阅读
- html - 如何更改我的 css 以实现所需的布局?
- css - Vue组件中如何覆盖css
- r - 使用 R 计算单元格的月数、季度数和计数
- angular - 从 mat-table 中删除数据但数据不会自动刷新
- python - 如何在 Pandas 中获取 Dataframe 列的数据类型和数据长度
- python - Pandas ValueError:无法将浮点 NaN 转换为整数
- java - 如何为来自 firebase 的一个特定孩子提供参考?如何在孩子里面阅读?查看我的屏幕截图并帮助我解决此错误
- python - 在 Microsoft Graph 中获取用户个人资料图片
- python - 图例未显示 matplotlib.patches
- r - 在 R 中重命名列名