web-crawler - 将抓取限制在种子 url 的子页面
问题描述
我有这一套,它根据种子爬取页面
{“类”:“com.digitalpebble.stormcrawler.filtering.host.HostURLFilter”,“名称”:“HostURLFilter”,“参数”:{“ignoreOutsideHost”:假,“ignoreOutsideDomain”:真}}
但是,我怎样才能仅限于种子的子页面。例如。如果我有一个种子为“ https://www.test.com/ ”,通过上述设置,爬虫还会抓取并添加诸如“ https://stg.test.com/ ”之类的网址及其子页面等。
如何将抓取限制为“ https://www.test.com/ ”以及该种子的子页面,例如“ https://www.test.com/test1 ”、“ https://www.test .com/test2 " 等
TIA。
解决方案
只需在 HostUrlFilter 的配置中将 ignoreOutsideHost 设置为true。
推荐阅读
- ios - 使用 Picker 视图更改应用程序内的语言
- c++ - 条件变量通知和等待
- r - R韩语正则表达式
- python - 如何让这个循环以命令开始
- time-complexity - Euclid算法的时间复杂度减法
- google-apps-script - 连接工作表中的一系列单元格后的额外逗号
- javascript - 我的 JavaScript 不能用于我的 MVC 项目
- c++ - 有没有办法让构造函数自动理解参数类型?
- c++ - C++ 标准中的 [dcl.fct.def.general]/1 可能存在问题
- google-chrome - 谷歌浏览器是否为每个 HTTP 请求创建一个新的套接字?