python - 使用预加载器抓取网站的问题
问题描述
我正在尝试抓取这个网站
https://www.neds.com.au/sports/esports
我正在使用scrapy来做到这一点,但我所做的任何尝试都只会抓取预加载器页面。我只是使用了错误的工具吗?
解决方案
无论您最终使用什么工具,它都必须监控 DOM 的变化,并且只有在 DOM 稳定时才开始实际的抓取(内容不再在任意时间内发生变化)。
一种这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于 CSS 选择器进行抓取,并具有“稳定性超时”选项。
来自文档:稳定性超时 - 当在指定的时间量(毫秒)内没有更多 DOM 更改时,考虑页面已加载并准备好被抓取。仅适用于 html 资源。用于绕过预加载器内容。
免责声明:我是扩展作者。
推荐阅读
- javascript - React Native:当其他视图不存在时,使视图占据整个屏幕
- c - 如何使用将错误处理导出到 C 中的函数
- excel - 使用 VBA 替换函数添加到字符串 excel 的特定部分
- javascript - 带有子菜单的 Videojs 设置按钮
- python - 读取 JSON 文件添加文件名列而不使用 append()
- r - 如何在 geom_hex 图中将图例中的计数显示为百分比
- html - 纯 HTML 和 CSS 汉堡菜单不起作用
- c# - 如何将 ASP.NET Core Identity 用户作为 EF 迁移的一部分播种
- python - Python BeautifulSoup 提取图像标签
- php - 使用 PHP 从 Google Cloud Bucket 加载图像