首页 > 解决方案 > 将抓取限制在种子 url 的子页面

问题描述

我有这一套,它根据种子爬取页面


{“类”:“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”,“名称”:“HostURLFilter”,“参数”:{“ignoreOutsideHost”:假,“ignoreOutsideDomain”:真}}


但是,我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”,通过上述设置,爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。

如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面,例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等

TIA。

标签: web-crawlerstormcrawler

解决方案


只需在 HostUrlFilter 的配置中将 ignoreOutsideHost 设置true。


推荐阅读