wikipedia - 使用 Wikipedia Extractor 作为 Wikipedia Data Dump File 的解析器时出现“EOFError: Ran out of input”
问题描述
我尝试使用“维基百科提取器(https://github.com/attardi/wikiextractor)将 bz2 转换为文本。我已经下载了带有 bz2 扩展名的维基百科转储,然后在命令行上使用了这行代码:
python Wikiextractor.py -b 85M -o 提取 D:\wikiextractor-master\wikiextractor\zhwiki-latest-pages-articles.xml.bz2
完成页面预处理后,出现如下错误: 在此处输入图像描述
我怎样才能解决这个问题?
解决方案
我遇到了这个问题。可能是由 Windows 的 StringIO 问题引起的。我在 Windows Subsystem for Linux (WSL) 上重新运行它,它运行良好。
推荐阅读
- python - 2列上的Array_agg,输出未被识别为列表
- json - JSON SWIFT,如何访问值
- c# - 在以不同方法创建的对象上使用
- python - 无法使用搜索关键字解析网页中的某些信息
- node.js - Mongoose 警告:DeprecationWarning:当前的服务器发现和监控引擎已弃用?
- java - 使用 Maven 程序集插件作为 project.basedir 或 project.build.directory 创建 zip 原型更好吗?
- django - 在 Django 中为 Meta Tag 使用 model.save 数据
- java - 如何在 ubuntu 16.04 的 hadoop 中设置 JAVA_HOME 变量
- css - @include 出口处的 CSS 编译错误('class-name')
- java - 使用来自数组的连接整数创建字符串时出现问题