首页 > 解决方案 > Scrapy 与许多蜘蛛

问题描述

我有一个项目需要从不同站点抓取数据。示例:我抓取了站点 1,然后检查了一些条件(检查 DB 等),如果这些条件为真,我需要为下一个站点运行另一个蜘蛛并传递在第一个站点上抓取的数据。哪种项目架构(蜘蛛和管道的组合)最适合这种情况?

标签: scrapy

解决方案


在 Scrapy 中从一个 Spider 发射另一个 Spider 是不可能的

我曾经有过这样的要求,我所做的是我使用了ScrapyD,每当我需要启动另一个蜘蛛时,我只需使用requests.get('to_your_scrapyd:6800/schedule.json?project=project&spider=spider')or发送一个请求scrapy.Request,新的蜘蛛就会运行


推荐阅读