python - 网页抓取和代理类型

框架：Scrapy。

我目前正在使用网络爬虫，但我与服务器断开连接。刮板将（最终）刮掉 100k 到 150k 页面，每个页面包含 11 个字段，这些字段包含将被刮掉的数据。

我的想法是刮刀每月使用一次。

完成后数据库的估计大小在 200mb 到 300mb 之间（不考虑带宽）。

我不知道我是否需要为此付费代理，或者我是否可以使用免费代理。

任何建议（或我需要的代理提供者）都将受到极大的欢迎。

标签： pythonweb-scrapingscrapybotsproxies

有几种技术可以避免与您正在抓取的服务器断开连接

这是一些常见的技术

您可以在user agents此处添加一个库，在此页面中有有关如何使用的教程user agents

你可以去你的settings.py和取消评论DOWNLOAD_DELAY = x