apache-tika - 在 StormCrawler 中使用 Apache Tika 进行语言检测
问题描述
StormCrawler 的 Apache Tika 集成是否支持文档的语言检测?是否有 Tika 生成的变量列表可以包含在 StormCrawler 的输出中?
解决方案
简短的回答是否定的,但您可以改用langid模块,上次我检查它更快,有更多语言并且比 Tika 中的更准确。
我不知道 Tika 返回的值的详尽列表。
推荐阅读
- excel - Excel 和 Access 之间的 ADOB 连接断开
- laravel-5 - Laravel 渲染 500 页面而不是欢迎视图
- ios - #selector 函数被意外调用
- excel - 在借方和贷方论坛中显示负数la
- javascript - 打字稿有没有办法推断出数组中不再可能出现空值?
- drupal-8 - Drupal 8 安装
- javascript - 同步 XMLHTTP 请求警告、Jquery $.ajax 以及如何避免它
- reactjs - 在 React 中访问哈希参数(/callback#token=1234&...etc)
- python - 如何将eclipse PyDev项目转换为可执行文件
- regex - 边界内字符的正则表达式