nutch - Nutch http.redirect.max 我可以知道它是什么意思吗
问题描述
例如,我正在抓取 1000 个网站。当我为某些网站读取数据库时,它显示 db_redirect_temp 和 db_redirect_moved,如果我设置 http.redirect.max=10 是每个网站的这个值,或者它只处理整个抓取网站的 10 个重定向。
解决方案
尝试获取页面时,获取器将遵循的最大重定向数。如果设置为负数或 0,则 fetcher 不会立即跟踪重定向的 URL,而是会记录它们以供以后获取。
该数字适用于单个网页的重定向。10 是一个非常慷慨的限制,在大多数情况下 3 应该足够了,因为无论如何都会在以后的获取周期之一中尝试重定向目标。请注意,重定向源始终在 CrawlDb 中记录为 db_redir_perm 或 db_redir_temp。
推荐阅读
- java - 如何在 Selenium 中命名 div、b、span 等 WebElements?
- docker - 启动 docker 容器
- node.js - 调用 axios.get() 时无法获取 /[object%20Object]
- raspberry-pi - Raspberry Pi 4 (8 GB) 和 YOLOV4/YOLOV4-TINY 使用 Tensorflow-lite?
- reactjs - nginx 位置和代理通过的 404 问题
- php - Drupal中同一节点的两个别名?
- pine-script - 交易品种列表的交易视图 Pine 脚本的自定义筛选器
- python - Scrapy找不到项目
- powerbi - Power BI - 如何从多行创建条件
- r - 下载并安装大于 4 的 Microsoft R 客户端版本