首页 > 解决方案 > Nutch regex-urlfilter 不起作用

问题描述

我正在抓取一个有很多子域的网站。我想限制几个 url 爬行。例如,我有一个网站http://www.123.com,我有以 http://.123.com 结尾的子网址。我想避免http://www.def.123.comhttp://www.ghi.123.com抓取我如何添加过滤器。

目前我应用了下面的过滤器,但它抓取了这两个受限网址

+^http://*.123.com

-^ http://www.def.123.com

-^ http://www.def.123.com

标签: solrnutch

解决方案


正如 regex-urlfilter.txt 开头的评论所说:

文件中的第一个匹配模式确定是包含还是忽略 URL

因此,由于您的第一个正则表达式匹配,并且它以 + 开头,因此将抓取该站点的所有 URL。要解决此问题,请将更具体(排除)的 URL 放在首位,一般规则放在最后。


推荐阅读