首页 > 解决方案 > 使用scrapy解析时如何最小化服务器负载?/如何仅忽略和解析来自的信息

问题描述

我收集统计数据,我需要的所有信息都在<head>网站的(脚本标签)中。

它很大<body>(每页大约 5-10 kb),所以我可以不解析它以减少服务器负载吗?

如果您推荐替代优化以减少服务器负载,我会很高兴

设置.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33 现在速度 180/每分钟(有时 200)

标签: scrapy

解决方案


Scrapy 仅对整个响应体进行操作。这种行为编码在scrapy核心中。

CONCURRENCY_REQUEST = 32

Scrapy 没有CONCURRENCY_REQUEST设置。你的意思是CONCURRENT_REQUESTS

DOWNLOAD_DELAY = 0.33现在速度 180/每分钟(有时 200)

如果您没有指定RANDOMIZE_DOWNLOAD_DELAYFalse(默认值True)。下载延迟将是设置的0.5 倍到 1.5 倍之间的随机数DOWNLOAD_DELAY


推荐阅读