web-crawler - 爬虫不只爬几页,还爬其他所有内容
问题描述
我在我的应用程序中设置了爬虫,效果很好,但是只有几个 url 有问题。它不会爬取这些页面,我看到的这两个页面与其他被爬取的页面之间的唯一区别是这些页面上有很多子链接,大约 800-1000 个。
您能否提供帮助,我可以更新任何设置以查看这些设置是否会被抓取。
我正在使用与 ES 5.6.3 兼容的爬虫。
谢谢。
解决方案
检查配置http.content.limit的值,它的值在原型中设置为65536 。这可以解释为什么您缺少较大文档上的外链。将其设置为 -1 将保证处理整个文档,而不管其大小。
推荐阅读
- java - 使用 Spring Boot 未为 log4j2 中的组件属性提供类型属性
- css - 如何正确定位?
- symfony - Symfony 5.1.7 - 无法从禁用的选择框 ChoiceType 中保存数据
- linux - 使用 sed,在数字匹配之前只删除一个字符
- amazon-cognito - 使用 AWS Cognito 的 Feathersjs 4 oAuth 不起作用
- android - 使用 AWS Amplify Android 检查用户是否已存在?
- android - 将 Expo 应用程序资产中的图像上传到生产服务器
- java - 如何从firebase中检索价值并为其添加价值并在android studio JAVA中更新到firebase
- reactjs - 如何在以太坊交易中使用 useState 设置交易哈希
- algorithm - 优化 2D 网格空间以放置对象