首页 > 解决方案 > 我如何遍历一堆文档并为每个文档执行 spacy 的 nlp,而不会出现内存错误?

问题描述

我有 90 个文档,每个文档大约 40 页(原始文本)。我想用 spacy 标记它们。

nlp = spacy.load('de')
tokenized_list = []

for document in doc_collection:
    temp_doc = nlp(document)
    tokenized_list.append(temp_doc)

它适用于少量文档,但如果我想对所有文档进行标记,那么它会给出“MemoryError”。

"...site-packages\numpy\core\shape_base.py", line 234, in vstack
    return _nx.concatenate([atleast_2d(_m) for _m in tup], 0)

MemoryError"

有人知道我该如何解决吗?

更新:我可以一遍又一遍地执行它而不更改文档,它有时会卡在这个文档中,有时会卡在那个文档中 - 真的很奇怪......有人知道类似的问题吗?

标签: pythonnumpynlpspacy

解决方案


我从 python 32 位更改为 64 位版本。现在它正在工作!我尝试了很多,但除了这个版本更改之外,没有其他任何东西起作用。


推荐阅读