首页 > 解决方案 > Nutch http.redirect.max 我可以知道它是什么意思吗

问题描述

例如,我正在抓取 1000 个网站。当我为某些网站读取数据库时,它显示 db_redirect_temp 和 db_redirect_moved,如果我设置 http.redirect.max=10 是每个网站的这个值,或者它只处理整个抓取网站的 10 个重定向。

标签: nutchnutch2

解决方案


http.redirect.max定义为:

尝试获取页面时,获取器将遵循的最大重定向数。如果设置为负数或 0,则 fetcher 不会立即跟踪重定向的 URL,而是会记录它们以供以后获取。

该数字适用于单个网页的重定向。10 是一个非常慷慨的限制,在大多数情况下 3 应该足够了,因为无论如何都会在以后的获取周期之一中尝试重定向目标。请注意,重定向源始终在 CrawlDb 中记录为 db_redir_perm 或 db_redir_temp。


推荐阅读