首页 > 解决方案 > 使用 Wikipedia Extractor 作为 Wikipedia Data Dump File 的解析器时出现“EOFError: Ran out of input”

问题描述

我尝试使用“维基百科提取器(https://github.com/attardi/wikiextractor)将 bz2 转换为文本。我已经下载了带有 bz2 扩展名的维基百科转储,然后在命令行上使用了这行代码:

python Wikiextractor.py -b 85M -o 提取 D:\wikiextractor-master\wikiextractor\zhwiki-latest-pages-articles.xml.bz2

完成页面预处理后,出现如下错误: 在此处输入图像描述

我怎样才能解决这个问题?

标签: wikipediawikidata

解决方案


我遇到了这个问题。可能是由 Windows 的 StringIO 问题引起的。我在 Windows Subsystem for Linux (WSL) 上重新运行它,它运行良好。


推荐阅读