python - Scrapinghub spider 在任务完成之前完成并关闭

首页 > 解决方案 > Scrapinghub spider 在任务完成之前完成并关闭

问题描述

我正在使用带有 splash 实例的 scrapinhub 云从蜘蛛提供的大量 url 列表中抓取内容和图像。我希望抓取大约 50 000 个网址。

我第一次运行它时，蜘蛛运行了不到 13 个小时，然后在只抓取了 11k 个 URL 后关闭。下次我运行它时，它只运行了 2 个小时并刮掉了 2k 个网址。

我收到的唯一消息如下：

（TCP 端口 6023 已关闭）

请让我知道我可以提供的任何可能的解决方案或更多信息

标签： pythonscrapyscrapinghub

解决方案

推荐阅读