regex - 将正则表达式过滤器应用于爬虫以爬取特定页面
问题描述
我正在使用 Storm crawler 1.10 和 Elastic Search 6.3.x。例如,我有一个主网站https://www.abce.org
,它有子页面https://abce.org/def
和https://abce.org/ghi
. 我想专门抓取https://www.abce.org/ghi
.
我的种子网址是https://www.abce.org/ghi/
.
目前我每次都在不同的正则表达式过滤器下应用。
+^https:\/\/www.abce.org\/ghi*
+^(?:https?:\/\/)www.abce.org\/ghi(.+)*$
+^(?:https?:\/\/)?(?:www\.)?abce\.[a-zA-Z0-9.\S]+$
我测试了我的正则表达式regexr它的显示有效。但是当我检查 statusindex 时,它的显示只发现了种子 url,没有别的。
解决方案
试试FastURLFilter,你会发现它使用起来更直观。在调试模式下运行拓扑以检查您是否已将 URL 提交到 URLFilters,并且它们的行为符合您的预期。
在你问之前,这里有一个关于调试 Storm 的提示
推荐阅读
- callback - 如何将参数传递给嵌套在 Ipywidgets.interactive_output() 函数中的函数
- angular - 如何在 Angular Material 表中显示选择列表?
- c# - 数据类型问题
- magento2 - Magento 2 管理员自定义保存按钮发送请求两次
- javascript - 将鼠标悬停在绝对元素上时更改相对元素
- javascript - 无法获取过滤结果的功能
- python - 如何使用 python pandas 结合销售预测、计划交货和当前库存来预测未来库存
- css - 使用 JQuery UI 对话框小部件时如何遵守内容安全策略?
- python - 使用字典对 O(n) 中的数组进行排序?
- plot - plotnine issu 使用 stat_smooth 和 geom_path