首页 > 解决方案 > gensim.corpora wikiCorpus 是否仅适用于 bz2 文件?

问题描述

我正在尝试加载 wiki 转储 (.gz) 并在 gensim word2vec 中使用它。我在终端中使用 bzip2 将其转换为 bz2 但 Wikicorpus 类似乎拒绝该文件。有人可以解释一下如何以简单的方式从 wiki 转储中获取文本吗?谢谢

标签: pythonnlpgensimwikipediadump

解决方案


WikiCorpusGensim 中的实用程序类需要pages-articles转储,而不是仅包含摘要的不同转储。

要阅读另一种格式,您需要编写自己的代码。

你可以尝试一些事情:

  • 研究WikiCorpus 类的源代码并将其用作您自己代码的模型,对其进行调整以从其他转储中读取不同的元素。
  • 使用其他一些实用程序,例如命令行工具jq或类似工具,将相关文本从感兴趣的 XML 元素转储到纯文本文件中,然后您可以在 Python 中逐行读取该文件(进一步预处理/标记,甚至直接提供给 Gensim 的LineSentence助手类)。

推荐阅读