web-crawler - Storm-Crawler 中的重定向处理
问题描述
使用 SC,我应该能够在不发出外链的情况下遵循重定向吗?重定向的 URL 是否应该作为“发现”注入我的后端?似乎不是来自我使用以下设置的小实验:
crawler.yaml: redirections.allowed: true
parser.emitOutlinks: false
urlfilters.json: "maxDepth": 2
最后,当一个页面被视为重定向到另一个页面时,它是否会通过该页面的其余拓扑(我的意思是无论是在 fetcher 中的什么)?
解决方案
外链和重定向是分开处理的,见JSoupParserBolt.java#L341。大多数重定向发生在 Emitoulinks 配置无论如何都不适用的 FetcherBolt 中。
重定向的目标将具有 DISCOVERED 状态,除非它已经以不同的状态存在。
请记住,重定向的 URL 像任何外链接一样经过过滤和规范化,因此可能存在阻止添加 URL 的东西,例如对主机名进行过滤。
最后,当一个页面被视为重定向到另一个页面时,它是否会通过该页面的其余拓扑(我的意思是获取器后面的任何内容)?
不,请参阅FetcherBolt
推荐阅读
- verilog - 如何在 Chisel3 中使用多输入逻辑门?
- c++ - 使用暂停按钮 ARDUINO 创建灯光序列的问题
- pg-promise - 如何使用 pg-promise 将 jsonb[] 数据插入列
- javascript - 在 Kotlin 中访问数组的出站元素
- xcode - Xcode 11 没有可用的设备条件
- python - Flask-WTForms 自动提交 onchange 宏不起作用
- java - windows中的logstash类路径在哪里?
- reactjs - React Material UI 选择捕获参考而不是 Event
- r - 错误条件的长度 > 1,并且只使用第一个元素
- r - ggplot2 - 一个分面图不显示 stat_compare_means Kruskal