首页 > 解决方案 > 如何使用 Spidermon 进行 Scrapy 历史输出比较

问题描述

所以 Scrapinghub 发布了 Scrapy 质量保险的新功能。它说它具有历史比较功能,可以检测当前的刮擦量是否仅低于前一次刮擦的 50%,这是可疑的。但是,我该如何应用它呢?

标签: pythonweb-scrapingscrapyqaspidermon

解决方案


Spidermon 1.10 版引入了一个新的统计信息收集器,它可以在您的.scrapy目录中保存您上次作业执行的统计信息 ( https://spidermon.readthedocs.io/en/latest/stats-collection.html )。因此,每次执行蜘蛛时,您stats_history的 Spider 实例中都会有一个可用的属性,其中包含之前执行的作业的所有先前统计信息的列表。您不再需要像 Luiz 在他的回答中建议的那样手动处理统计数据的存储(但原理基本相同)。

有了这些信息,您可以创建自己的监视器来处理这些统计数据并计算抓取项目的平均值,并将它们与您最近的执行进行比较(或者您可以根据需要使用统计数据)。您可以在前面提到的文档中看到类似的监视器示例。


推荐阅读