python - 我如何遍历一堆文档并为每个文档执行 spacy 的 nlp,而不会出现内存错误?
问题描述
我有 90 个文档,每个文档大约 40 页(原始文本)。我想用 spacy 标记它们。
nlp = spacy.load('de')
tokenized_list = []
for document in doc_collection:
temp_doc = nlp(document)
tokenized_list.append(temp_doc)
它适用于少量文档,但如果我想对所有文档进行标记,那么它会给出“MemoryError”。
"...site-packages\numpy\core\shape_base.py", line 234, in vstack
return _nx.concatenate([atleast_2d(_m) for _m in tup], 0)
MemoryError"
有人知道我该如何解决吗?
更新:我可以一遍又一遍地执行它而不更改文档,它有时会卡在这个文档中,有时会卡在那个文档中 - 真的很奇怪......有人知道类似的问题吗?
解决方案
我从 python 32 位更改为 64 位版本。现在它正在工作!我尝试了很多,但除了这个版本更改之外,没有其他任何东西起作用。
推荐阅读
- android - Why motion sensors doesn't trigger?
- html - 如何在 CSS 规则中将图像的最大高度设置为父 div 的高度?
- python - Embeddable python enviroment - external modules
- python - 拆分列名并从列名中的数据创建新列
- c++ - 使用 & 运算符“返回”多个值但没有指针:这是如何工作的?
- vb.net - 当文件名中有空格时,Vb.net System.IO.File.ReadAllBytes 抛出错误
- php - 如何在使用 PHP 将数据添加到 MYSQL 时显示进度/加载
- javascript - 以反应形式将 firebase.firestore.timestamp 转换为 patchValue 之前的日期
- java - 括号在后递减或递增的组合中是否重要,如下所示:x+=(x++)+(++x);
- raspberry-pi3 - 没有 pushtotalk 文件无法使用我的自定义谷歌应用程序