首页 > 解决方案 > 网页抓取和代理类型

问题描述

框架:Scrapy。

我目前正在使用网络爬虫,但我与服务器断开连接。刮板将(最终)刮掉 100k 到 150k 页面,每个页面包含 11 个字段,这些字段包含将被刮掉的数据。

我的想法是刮刀每月使用一次。

完成后数据库的估计大小在 200mb 到 300mb 之间(不考虑带宽)。

我不知道我是否需要为此付费代理,或者我是否可以使用免费代理。

任何建议(或我需要的代理提供者)都将受到极大的欢迎。

标签: pythonweb-scrapingscrapybotsproxies

解决方案


有几种技术可以避免与您正在抓取的服务器断开连接

这是一些常见的技术

您可以在user agents此处添加一个,在此页面中有有关如何使用的教程user agents

你可以去你的settings.py和取消评论DOWNLOAD_DELAY = x


推荐阅读