python - 我如何使用随机的非基本标记代码抓取网站?
问题描述
为了清晰
继续阅读,了解我来自哪里:
- 我有 0 次网页抓取经验。
- 关于我的具体问题,我不知道谷歌是为了什么。
- 当我说非常规时,我的意思是它不是简单的英语,它深深地埋在标记中。
- 我正在关注的教程——很多人都喜欢它——只展示了当网站是“纯英语”时如何抓取。
我的困境
我正在尝试抓取 reddit。我目前正在学习获取权力的游戏 subreddit 的教程。
这是我在使用 scrapy 拉取请求时看到的代码(与网络浏览器“检查元素”确认相同):
我正在阅读有关 XML 标记或其他内容的内容,但我很迷茫。
h2
考虑到标题所在的位置,有没有办法专门查找代码?我确信我可以采用这种意识形态并将其应用于我正在寻找的任何其他元素......
解决方案
推荐阅读
- node.js - 使用 Prisma 2 从查询中排除用户密码
- c++ - 为什么用右值调用复制构造函数
- c++ - 当我尝试执行我的代码时,我保持错误“'std::logic_error'what(): basic_string::_M_construct null not valid”
- angular - 角度项目中未显示的图像
- extjs - 组合框不会在 Ext.Dialog 中展开
- reactjs - 如何访问项目渲染器中的组件?
- php - 是否可以使用 Laravel eloquent 从另一台服务器上的另一个数据库中过滤数据?
- javascript - 在 JavaScript 中移动没有元素 ID 的 HTML 元素
- hadoop - 在 Windows 中运行 Hadoop 时如何运行 Hive Map Join?
- docker - docker-compose.yml 文件中无法访问 gitlab 变量