首页 > 解决方案 > TIKA - 计算文档的内容编码

问题描述

我正在使用 Tika 1.26 来提取文档的元数据。

我首先尝试了 Tika Server,然后我切换到了编程 API。然而,即使文档声明Content-Encoding文档的 应该通过/meta API或 MetadataParser 返回,该属性实际上并没有返回。

我发现实际返回 Charset 的 API 是CharsetDetector,但我不知道如何通过 Tika Server 调用相同的 API。我现在没有任何线索。

有人可以指出为这个用例建模的正确方法是什么,或者我做错了什么?

标签: apache-tikacontent-encodingtika-server

解决方案


推荐阅读