wikipedia - 从 Wikipedia 转储中提取特定文章及其讨论页
问题描述
我是网络爬虫的新手。我有以下维基百科转储链接https://dumps.wikimedia.org/backup-index.html。我有一个文章标题列表。他们都是英文的。
我需要从给定的转储中下载这些文章及其讨论页。请让我知道从哪里开始。
解决方案
这在很大程度上取决于您的用例。您是否有一个相对较小的集合(比如说,几百个)要获取的页面?去 API,它可以给你 wikitext 和 HTML,而转储只会给你 wikitext。
如果您需要转储,或者只是想学习如何以最佳方式处理它们,https://en.wikipedia.org/wiki/Wikipedia:Database_download#How_to_use_multistream?可能是一个很好的学习材料。
推荐阅读
- php - 错误消息“Aimeos 包上的类“\Aimeos\MShop\Index\Manager\PgSQL”不可用”
- node.js - 错误:找不到模块“graphql/validation/rules/PossibleTypeExtensions”
- amazon-web-services - 如何从 Cognito 身份池提供的身份凭证访问用户数据?
- jsf - Bean 不取值
- python-3.x - 我的 Pyttsx3 模块什么也没说 文本到语音功能无法正常工作 没有获得任何音频输出
- node.js - 我是否缺少 tmp 文件?Heroku 部署错误 ENOENT
- node.js - Vercel 无服务器函数发送响应 cookie
- python - 将二进制/八进制文件转换为excel文件
- javascript - 当 x 轴采用时间格式 (HH:MM) 时,Highchart 的热图无法正确渲染
- dependencies - 如何在没有循环依赖的情况下使用环回 4 实现链式模型