首页 > 解决方案 > Scrapinghub spider 在任务完成之前完成并关闭

问题描述

我正在使用带有 splash 实例的 scrapinhub 云从蜘蛛提供的大量 url 列表中抓取内容和图像。我希望抓取大约 50 000 个网址。

我第一次运行它时,蜘蛛运行了不到 13 个小时,然后在只抓取了 11k 个 URL 后关闭。下次我运行它时,它只运行了 2 个小时并刮掉了 2k 个网址。

我收到的唯一消息如下:

(TCP 端口 6023 已关闭)

请让我知道我可以提供的任何可能的解决方案或更多信息

标签: pythonscrapyscrapinghub

解决方案


推荐阅读