首页 > 解决方案 > 使用预加载器抓取网站的问题

问题描述

我正在尝试抓取这个网站

https://www.neds.com.au/sports/esports

我正在使用scrapy来做到这一点,但我所做的任何尝试都只会抓取预加载器页面。我只是使用了错误的工具吗?

标签: pythonwebbeautifulsoupscrapyscreen-scraping

解决方案


无论您最终使用什么工具,它都必须监控 DOM 的变化,并且只有在 DOM 稳定时才开始实际的抓取(内容不再在任意时间内发生变化)。

一种这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于 CSS 选择器进行抓取,并具有“稳定性超时”选项。

来自文档:稳定性超时 - 当在指定的时间量(毫秒)内没有更多 DOM 更改时,考虑页面已加载并准备好被抓取。仅适用于 html 资源。用于绕过预加载器内容。

免责声明:我是扩展作者。


推荐阅读