首页 > 解决方案 > StormCrawler 可以爬取文件系统而不是 URL 吗?

问题描述

有没有办法使用StormCrawler来索引文件系统上的文件而不是 URL?我们有 5+ 百万个文件需要被抓取和索引(使用ElasticSearch)。该索引需要每天或更频繁地更新。其他爬虫需要 50 多个小时才能爬取完整的文件集。这使得更新周期太慢。例如,如果您需要每天或更频繁地更新搜索索引,则其他爬虫无法实现。

标签: stormcrawler

解决方案


StormCrawler 中有一个可用的文件协议。如果您使用file://将文件表示为 URI ,SC 应该能够开箱即用地处理它们。


推荐阅读