首页 > 解决方案 > 从 Wikipedia 转储中提取特定文章及其讨论页

问题描述

我是网络爬虫的新手。我有以下维基百科转储链接https://dumps.wikimedia.org/backup-index.html。我有一个文章标题列表。他们都是英文的。

我需要从给定的转储中下载这些文章及其讨论页。请让我知道从哪里开始。

标签: wikipediawikimedia-dumps

解决方案


这在很大程度上取决于您的用例。您是否有一个相对较小的集合(比如说,几百个)要获取的页面?去 API,它可以给你 wikitext 和 HTML,而转储只会给你 wikitext。

如果您需要转储,或者只是想学习如何以最佳方式处理它们,https://en.wikipedia.org/wiki/Wikipedia:Database_download#How_to_use_multistream?可能是一个很好的学习材料。


推荐阅读