solr - Nutch regex-urlfilter 不起作用
问题描述
我正在抓取一个有很多子域的网站。我想限制几个 url 爬行。例如,我有一个网站http://www.123.com,我有以 http://.123.com 结尾的子网址。我想避免http://www.def.123.com和http://www.ghi.123.com抓取我如何添加过滤器。
目前我应用了下面的过滤器,但它抓取了这两个受限网址
+^http://*.123.com
解决方案
正如 regex-urlfilter.txt 开头的评论所说:
文件中的第一个匹配模式确定是包含还是忽略 URL
因此,由于您的第一个正则表达式匹配,并且它以 + 开头,因此将抓取该站点的所有 URL。要解决此问题,请将更具体(排除)的 URL 放在首位,一般规则放在最后。
推荐阅读
- c# - Unity 3D - 随机平台生成器
- python - 在 Python 中如何设置库函数(用 Fortran 编写)可用的线程数?
- reactjs - 如何根据多个条件设置 React 组件的样式?
- azure - 擦除正在使用的 Log Analytics 工作区,是否推荐?
- spring - 正文值中的 Spring RestTemplate 和 Groovy GString
- css - 居中对齐 ListItemContent 并在 DIV 中将列表居中
- java - 需要帮助了解这一基本挑战吗?
- python - 获取包的依赖项而不安装它们
- html - 在 HTML/CSS 中的行项目之后附加多个图像
- javascript - 未处理的承诺拒绝:超时;区域:Recaptcha