stormcrawler - StormCrawler 可以爬取文件系统而不是 URL 吗?
问题描述
有没有办法使用StormCrawler来索引文件系统上的文件而不是 URL?我们有 5+ 百万个文件需要被抓取和索引(使用ElasticSearch)。该索引需要每天或更频繁地更新。其他爬虫需要 50 多个小时才能爬取完整的文件集。这使得更新周期太慢。例如,如果您需要每天或更频繁地更新搜索索引,则其他爬虫无法实现。
解决方案
StormCrawler 中有一个可用的文件协议。如果您使用file://将文件表示为 URI ,SC 应该能够开箱即用地处理它们。
推荐阅读
- css - codepen 禁用外部图像链接
- oop - 设计模式名称:ClassA 的对象就像 ClassB 对象的“类”
- .net - 安装 .NET Framework 4.7.2 目标包时出现“错误 0x800713ec - 亚洲”
- react-native-vector-icons - 无法解析配置“:react-native-vector-icons:classpath”的所有文件
- css - 根据 React 中的页面更改导航栏背景颜色
- android - C:\Users\SABUJ\AndroidStudioProjects\new\app\src\main\res\values\colors.xml:1:1: Error: Content is not allowed in prolog
- python - 从字符串中删除 \x 转义的序列
- spring-boot - 微型动物。环境的记录器配置
- laravel - 当用户访问 Nova 中未经过身份验证的区域时如何中止 403
- spring-cloud-stream - Spring cloud stream - 为 Rabitmq 声明目标和组属性