首页 > 解决方案 > 一遍又一遍地抓取一些动态数据(像刮刀这样的浏览器!!)

问题描述

我想从两个投注网站上抓取一些数据。(使用 javascript。)这些网站数据是完全动态的,因此它们会分分钟变化。我需要一个网络抓取工具来抓取这些数据并将其存储在数据库中。(每个站点只有 5 场比赛和 12 小时。)

但问题是这样的:当一个爬虫想要从网页中提取数据时,它会爬到第一页,然后完成工作,它会关闭第一页并转到第二页,直到最后一页. 如果我以这种方式抓取数据,我应该向该站点发送太多请求,并且可能会被禁止!

所以我认为可能有另一种方法可以做到这一点:就像浏览器一样,如果有一个刮板可以打开一些标签并防止这些标签挂起和失去连接,这些标签上的数据将自动更新并简单地提取+网站不会禁止的!

所以我想知道有没有这样的刮刀?selenium/splash + scrapy 可以做这样的事情吗?或者我应该寻找别的东西?(比如浏览器扩展?)你对我有什么建议吗?:(

感谢和抱歉语法问题。:[[

标签: seleniumweb-scrapinggoogle-chrome-extensionscrapyscrapy-splash

解决方案



推荐阅读