web-crawler - FastUrlFilter 不适用于多个域
问题描述
使用 Storm Crawler 1.11 和 Elastic Search 6.5.x 并尝试应用fastfilterfilter。第一个过滤器工作正常,其余过滤器仅抓取父 URL。我的配置中是否缺少任何内容或需要进行任何更改才能抓取所有五个网址。
我的种子网址
https://www.abce.com/ghi/ seed=ghi
https://www.abce.com/jkl/ seed=jkl
https://www.abce.com/mno/ seed=mno
https://mnop.edu/ seed=mnop
https://jqkl.edu/ seed=jqkl
fasturlfilter.json
[
{
"scope":"domain:abce.com",
"patterns":[
"AllowPath /ghi/",
"AllowPath /jkl/",
"AllowPath /mno/",
"DenyPath .+"
]
},
{
"scope":"domain:mnop.edu",
"patterns":[
"AllowPath /",
"DenyPath .+"
]
},
{
"scope":"domain:jqkl.edu",
"patterns":[
"AllowPath /",
"DenyPath .+"
]
}
]
解决方案
我用上面的 URL 和规则写了一个单元测试,找不到任何问题。请检查是否有任何其他过滤器阻止添加外链。
推荐阅读
- java - 如何对齐html表格中的单元格
- javascript - 避免将 JS Map 与 Immutable Map 一起使用
- java - 如何在不发送消息的情况下在 Android 中打开默认电子邮件客户端?
- python-2.7 - OpenCV,在 3d 表面上的投影
- go - 如何在 Go 中获取 struct 的类型?
- c++ - 为什么在 try 块中访问未声明的变量不会导致 C++ 中的异常
- android - 如何从角度应用程序更改 apiurl?
- ios - UITableViewCell 选择在目标 c 中不起作用
- r - R用循环替换数据框名称的列名称
- python - python日志文件中的时间戳是否可能在多线程系统中不是按时间顺序排列的?