wikipedia - 如何下载和使用维基百科数据转储?
问题描述
我想计算特定语言的 wiki 转储中的实体/类别,比如英语。对于初学者来说,官方文档很难找到/遵循。到目前为止,我所了解的是,我可以下载一个 XML 转储(从所有可用的不同文件中下载什么),并解析它(?)以计算实体(文章主题)和类别。
这些信息,如果有的话,很难找到。请提供一些关于如何使用它或我可以了解它的资源的说明。
谢谢!
解决方案
转储相当笨重:即使是小的“真实”转储也是 25G。而且因为 RDF 相当冗长,所以扩展到 >100G。所以我的一般建议是避免转储。
如果您忍不住,https://wdumps.toolforge.org/dumps允许您使用您想要的语言/属性/实体创建自定义的转储子集。
然后,只需逐行阅读并......对每一行做一些事情
推荐阅读
- python-3.x - 如何在 elasticsearc_dsl 中搜索 md5 字段
- scala - intellij 工作表中的主要方法不运行?
- sqlite - SQLite 锁定特定列
- python - 500 (Internal Server Error) Python Script 和 End of script output before headers:
- c++ - 如何释放协议缓冲区内存
- mysql - 可以在 SQLite 但不能在 MySQL 中存储和检索对象 Django BinaryField
- regex - 尝试使用 regexp_matches() 编写 SQL 查询在 postgresql 中查找正面
- php - 之后的分钟数
- php - 本周流行 - 本月流行 - PHP 的功能
- c# - 在 C# 7.3 中序列化非托管泛型类型