elasticsearch - nutch 防止索引父 url
问题描述
我正在使用带有弹性搜索的 nutch-1.15。我想抓取父 url 中存在的所有链接并将它们编入索引。但我不想索引父 url。
Ex:
Parent url : http://someLink.com/cgi-bin/parent.cgi
http://somelink.com/cgi-bin/link1
http://somelink.com/cgi-bin/link2
http://somelink.com/cgi-bin/link3
我只想索引链接 1、链接 2、链接 3 之类的 url ...而不是父 url http://someLink.com/cgi-bin/parent.cgi
如何才能做到这一点?
解决方案
+^(?:https?:\/\/)?(?:www\.)?somelink\.[a-zA-Z0-9.\S]+\/cgi-bin\/.*
进入 conf/regex-urlfilter,前面的命令允许你允许以下链接
<http://somelink.com/cgi-bin/link1>
<http://somelink.com/cgi-bin/link2>
<http://somelink.com/cgi-bin/link3>
<http://somelink.com/cgi-bin/>
如果你在它之前设置一个限制,它应该可以工作
进入 conf/regex-urlfilter
-^http:\/\/somelink.com\/cgi-bin\/parent.cgi
+^(?:https?:\/\/)?(?:www\.)?somelink\.[a-zA-Z0-9.\S]+\/cgi-bin\/.*
-^.`
推荐阅读
- grpc - 我们可以查看/调试 GRPC 有效负载,因为它是二进制格式的吗?
- javascript - 将此对象映射到新对象的最佳方法
- sql - 如何使用加入 EXASol 删除
- jquery - 当单击的计数器上升时,当未单击的计数器再次下降时
- jquery - 在数据库中的 jquery DataTable 中显示图像
- javascript - 如何使用jquery反转html中表列的顺序
- java - Hazelcast IMap put 方法获取存储桶或分区或密钥的锁定?
- c# - Azure 服务总线:读取带有偏移量的消息
- python-3.x - Python 3 keras:UnpicklingError:pickle 数据被截断部分下载的 keras cifar10 数据集
- c# - 如何在 C# 中检查安全令牌权限