首页 > 解决方案 > 在 StormCrawler 中使用 Apache Tika 进行语言检测

问题描述

StormCrawler 的 Apache Tika 集成是否支持文档的语言检测?是否有 Tika 生成的变量列表可以包含在 StormCrawler 的输出中?

标签: apache-tikastormcrawler

解决方案


简短的回答是否定的,但您可以改用langid模块上次我检查它更快,有更多语言并且比 Tika 中的更准确。

我不知道 Tika 返回的值的详尽列表。


推荐阅读