首页 > 解决方案 > 如何下载和使用维基百科数据转储?

问题描述

我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,官方文档很难找到/遵循。到目前为止,我所了解的是,我可以下载一个 XML 转储(从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。

这些信息,如果有的话,很难找到。请提供一些关于如何使用它或我可以了解它的资源的说明。

谢谢!

标签: wikipediainformation-retrievalwikidataknowledge-graph

解决方案


转储相当笨重:即使是小的“真实”转储也是 25G。而且因为 RDF 相当冗长,所以扩展到 >100G。所以我的一般建议是避免转储。

如果您忍不住,https://wdumps.toolforge.org/dumps允许您使用您想要的语言/属性/实体创建自定义的转储子集。

然后,只需逐行阅读并......对每一行做一些事情


推荐阅读