apache-tika - TIKA - 计算文档的内容编码
问题描述
我正在使用 Tika 1.26 来提取文档的元数据。
我首先尝试了 Tika Server,然后我切换到了编程 API。然而,即使文档声明Content-Encoding
文档的 应该通过/meta API或 MetadataParser 返回,该属性实际上并没有返回。
我发现实际返回 Charset 的 API 是CharsetDetector,但我不知道如何通过 Tika Server 调用相同的 API。我现在没有任何线索。
有人可以指出为这个用例建模的正确方法是什么,或者我做错了什么?
解决方案
推荐阅读
- javascript - 字符串格式的延迟评估
- python - 使用python的字符串中最近的字符
- python - 长 SELECT 查询的 SPARQLWrapper QueryBadFormed 错误
- c# - 强制 Cortana 聆听 - 除了用鼠标点击还有其他方法吗?
- sbt - build.sbt 使用任务更改设置
- python - 在 python 中出现错误为“**系列的真值不明确”
- c# - C# 卡在 StringBuilder 循环中
- php - 在 html 中暴露 id 是否安全
- javascript - jquery show() 关闭面板后不起作用
- javascript - 如何根据点击显示和隐藏内容