首页 > 解决方案 > 我如何使用随机的非基本标记代码抓取网站?

问题描述

为了清晰

继续阅读,了解我来自哪里:

  1. 我有 0 次网页抓取经验。
  2. 关于我的具体问题,我不知道谷歌是为了什么。
  3. 当我说非常规时,我的意思是它不是简单的英语,它深深地埋在标记中。
  4. 我正在关注的教程——很多人都喜欢它——只展示了当网站是“纯英语”时如何抓取。

我的困境

我正在尝试抓取 reddit。我目前正在学习获取权力的游戏 subreddit 的教程。

这是我在使用 scrapy 拉取请求时看到的代码(与网络浏览器“检查元素”确认相同):

Scrapy 代码拉取

我正在阅读有关 XML 标记或其他内容的内容,但我很迷茫。

h2考虑到标题所在的位置,有没有办法专门查找代码?我确信我可以采用这种意识形态并将其应用于我正在寻找的任何其他元素......

标签: pythonweb-scrapingscrapy

解决方案


推荐阅读