首页 > 解决方案 > 爬虫不只爬几页,还爬其他所有内容

问题描述

我在我的应用程序中设置了爬虫,效果很好,但是只有几个 url 有问题。它不会爬取这些页面,我看到的这两个页面与其他被爬取的页面之间的唯一区别是这些页面上有很多子链接,大约 800-1000 个。

您能否提供帮助,我可以更新任何设置以查看这些设置是否会被抓取。

我正在使用与 ES 5.6.3 兼容的爬虫。

谢谢。

标签: web-crawlerstormcrawler

解决方案


检查配置http.content.limit的值,它的值在原型中设置为65536 。这可以解释为什么您缺少较大文档上的外链。将其设置为 -1 将保证处理整个文档,而不管其大小。


推荐阅读