web-crawler - 将抓取限制在种子 url 的子页面

我有这一套，它根据种子爬取页面

{“类”：“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”，“名称”：“HostURLFilter”，“参数”：{“ignoreOutsideHost”：假，“ignoreOutsideDomain”：真}}

但是，我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”，通过上述设置，爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。

如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面，例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等

TIA。

标签： web-crawlerstormcrawler