首页 > 解决方案 > Apache Tika 仅用于解析 Office 文档 - 构建排除项

问题描述

我想将文件解析为文本/xml。

我只需要解析 Microsoft Office 文档(特别是 Microsoft Word)。

我目前在我的应用程序中包含整个tika-parsers依赖项。

由于这很重并且包含很多我不需要的东西,如果我只对解析 Office 文档感兴趣,是否有可以安全排除的模块列表?

标签: apache-tika

解决方案


有一个Tika 版本,它根据它们解析的文件类型将库拆分为模块。

虽然此版本似乎不再更新,但它可以用作您正在解析的文件类型需要哪些模块的指南。

例如,查看pom.xmltika-parser-advanced-module,您可以看到它依赖于opennlp-tools,但tika-parser-office-module不依赖于 。因此,如果您只对解析 office 文档感兴趣,则可以排除opennlp-tools.

此外,查看ivy:report(对于 maven,依赖树)会有所帮助。

如果有人对此有任何意见,我仍然愿意听取建议/意见。


推荐阅读