首页 > 解决方案 > nutch 防止索引父 url

问题描述

我正在使用带有弹性搜索的 nutch-1.15。我想抓取父 url 中存在的所有链接并将它们编入索引。但我不想索引父 url。

Ex: 
Parent url : http://someLink.com/cgi-bin/parent.cgi
                 http://somelink.com/cgi-bin/link1
                 http://somelink.com/cgi-bin/link2
                 http://somelink.com/cgi-bin/link3

我只想索引链接 1、链接 2、链接 3 之类的 url ...而不是父 url http://someLink.com/cgi-bin/parent.cgi

如何才能做到这一点?

标签: elasticsearchnutch

解决方案


 +^(?:https?:\/\/)?(?:www\.)?somelink\.[a-zA-Z0-9.\S]+\/cgi-bin\/.*

进入 conf/regex-urlfilter,前面的命令允许你允许以下链接

<http://somelink.com/cgi-bin/link1>
<http://somelink.com/cgi-bin/link2>
<http://somelink.com/cgi-bin/link3> 
<http://somelink.com/cgi-bin/>

如果你在它之前设置一个限制,它应该可以工作

进入 conf/regex-urlfilter

-^http:\/\/somelink.com\/cgi-bin\/parent.cgi
+^(?:https?:\/\/)?(?:www\.)?somelink\.[a-zA-Z0-9.\S]+\/cgi-bin\/.*
-^.`

推荐阅读