python - Scrapinghub spider 在任务完成之前完成并关闭
问题描述
我正在使用带有 splash 实例的 scrapinhub 云从蜘蛛提供的大量 url 列表中抓取内容和图像。我希望抓取大约 50 000 个网址。
我第一次运行它时,蜘蛛运行了不到 13 个小时,然后在只抓取了 11k 个 URL 后关闭。下次我运行它时,它只运行了 2 个小时并刮掉了 2k 个网址。
我收到的唯一消息如下:
(TCP 端口 6023 已关闭)
请让我知道我可以提供的任何可能的解决方案或更多信息
解决方案
推荐阅读
- python - Xpath没有给出结果scrapy python
- php - soapclient 请求 https 服务器错误,“您正在对启用 SSL 的服务器端口使用纯 HTTP”
- javascript - 如何在 Yarn 工作区的一个 package.json 文件中安装包?
- java - Spring批处理JobExecutionListener不起作用
- azure-logic-apps - ISE 中的逻辑应用程序 - 事件触发器(存储)不会触发,而 ISE 外部的逻辑应用程序会针对同一事件触发
- c++ - 如何创建从另一个线程到 Qt5 GUI 线程的 qDebug 信号
- reactjs - 样式 react-slick.neostack
- git - GIT - 合并与复制到主分支之间的优势比较
- permissions - 删除补丁集中其他人的标志需要哪些权限?
- laravel - Laravel - 如何显示软删除模型的详细信息