selenium - 一遍又一遍地抓取一些动态数据(像刮刀这样的浏览器!!)
问题描述
我想从两个投注网站上抓取一些数据。(使用 javascript。)这些网站数据是完全动态的,因此它们会分分钟变化。我需要一个网络抓取工具来抓取这些数据并将其存储在数据库中。(每个站点只有 5 场比赛和 12 小时。)
但问题是这样的:当一个爬虫想要从网页中提取数据时,它会爬到第一页,然后完成工作,它会关闭第一页并转到第二页,直到最后一页. 如果我以这种方式抓取数据,我应该向该站点发送太多请求,并且可能会被禁止!
所以我认为可能有另一种方法可以做到这一点:就像浏览器一样,如果有一个刮板可以打开一些标签并防止这些标签挂起和失去连接,这些标签上的数据将自动更新并简单地提取+网站不会禁止的!
所以我想知道有没有这样的刮刀?selenium/splash + scrapy 可以做这样的事情吗?或者我应该寻找别的东西?(比如浏览器扩展?)你对我有什么建议吗?:(
感谢和抱歉语法问题。:[[
解决方案
使用 scrapy/splash 并阅读此内容。https://docs.scrapy.org/en/latest/topics/practices.html#avoiding-getting-banned
推荐阅读
- c - 在后台运行线程并使用 OpenMP 继续主程序
- excel - 将范围从工作簿复制到另一个时出现问题:公式中出现对旧工作簿的引用
- android - 在所有 android 设备中获取多个 imei 号码
- python - 在 Python 中将文件从一个位置复制到另一个位置
- javascript - Froala 图像管理器在向服务器发出请求后不显示图像
- html - 是否可以在可折叠按钮组中的按钮之间添加边距而不在组周围添加任何边距?
- vue.js - 当外部库添加未定义的属性时,Vue 不会检测到更改
- git - 使用在线工具应用 git-diff 补丁
- php - 启用出站 tls 后 SMTP 不发送
- xamarin.forms - 导航返回时带有 ZXing BarcodeImageView 的 Xamarin Forms (Prism) 崩溃