python - gensim.corpora wikiCorpus 是否仅适用于 bz2 文件?
问题描述
我正在尝试加载 wiki 转储 (.gz) 并在 gensim word2vec 中使用它。我在终端中使用 bzip2 将其转换为 bz2 但 Wikicorpus 类似乎拒绝该文件。有人可以解释一下如何以简单的方式从 wiki 转储中获取文本吗?谢谢
解决方案
WikiCorpus
Gensim 中的实用程序类需要pages-articles
转储,而不是仅包含摘要的不同转储。
要阅读另一种格式,您需要编写自己的代码。
你可以尝试一些事情:
- 研究WikiCorpus 类的源代码并将其用作您自己代码的模型,对其进行调整以从其他转储中读取不同的元素。
- 使用其他一些实用程序,例如命令行工具
jq
或类似工具,将相关文本从感兴趣的 XML 元素转储到纯文本文件中,然后您可以在 Python 中逐行读取该文件(进一步预处理/标记,甚至直接提供给 Gensim 的LineSentence
助手类)。
推荐阅读
- twitter-bootstrap - 滚动条部分隐藏
- tsql - T-SQL 使用存储过程在记录中设置旋转标志(真/假)
- git - 使用 git 撤消对本地文件所做的更改
- python - 使用python在每次迭代中更改变量的值
- javascript - 使用jquery从表中获取单行
- html - 无法通过 CSS 在 div 内垂直对齐或缩进文本
- pdf - 如何在 Powerbuilder 中为使用 OLE 控件添加的 PDF 设置标题?
- c# - 具有包含/任何功能的类型和实例的集合
- vba - 插入查询未在循环内执行
- java - 单元测试方法在运行测试时不使用模拟对象。而是调用实际的类和方法