scrapy - 使用scrapy解析时如何最小化服务器负载?/如何仅忽略和解析来自的信息
问题描述
我收集统计数据,我需要的所有信息都在<head>
网站的(脚本标签)中。
它很大<body>
(每页大约 5-10 kb),所以我可以不解析它以减少服务器负载吗?
如果您推荐替代优化以减少服务器负载,我会很高兴
设置.py
CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33 现在速度 180/每分钟(有时 200)
解决方案
Scrapy 仅对整个响应体进行操作。这种行为编码在scrapy核心中。
CONCURRENCY_REQUEST = 32
Scrapy 没有CONCURRENCY_REQUEST
设置。你的意思是CONCURRENT_REQUESTS
?
DOWNLOAD_DELAY = 0.33
现在速度 180/每分钟(有时 200)
如果您没有指定RANDOMIZE_DOWNLOAD_DELAY
为False
(默认值True
)。下载延迟将是设置的0.5 倍到 1.5 倍之间的随机数DOWNLOAD_DELAY
。
推荐阅读
- javascript - 我可以在 Windows 上使用 javascript 自动化吗?
- objective-c - 在容器视图内的 NSTableView 中选择行
- graphql - 为什么我会收到“预期的 JSON 是 GraphQL 可为空的类型”。使用 Gatsby 和 Netlify 构建时?
- node.js - 如何使用 multer 和 typescript 正确处理节点发布请求中的 req.files
- r - 如何在编辑 Shiny dataTable 时保持多行显示?
- google-apps-script - 来自 Google App Script 中 UrlFetchApp 的空白响应
- r - 你能用 geom_bar 注释吗(不是基于特定的条形图)
- python-3.x - 具有分类约束的线性优化
- amazon-cloudformation - 从代码管道中的上一步设置 CodeBuild env var
- html - Flexbox - 特定的定位问题。内容 div 悬停标题