apache-tika - Apache Tika 仅用于解析 Office 文档 - 构建排除项
问题描述
我想将文件解析为文本/xml。
我只需要解析 Microsoft Office 文档(特别是 Microsoft Word)。
我目前在我的应用程序中包含整个tika-parsers
依赖项。
由于这很重并且包含很多我不需要的东西,如果我只对解析 Office 文档感兴趣,是否有可以安全排除的模块列表?
解决方案
推荐阅读
- django - Django:从 request.GET 到 QuerySet
- java - JVM 内存使用量超过操作系统报告的
- java - 如何使用Java通过for循环删除ArrayList中的元素
- python - SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 115-116: malformed \N character escape
- tar - 将 tar 存档的一部分提取到另一个 tar 存档文件
- javascript - 无法在字符串“文档”上创建属性“验证器”
- php - Laravel MorphTo() 导致无限加载时间和白屏
- javascript - 如何使用 Javascript 在 DOM 中访问和使用具有 ID 的动态创建的 html 元素
- c# - Polly 策略在调用 Execute() 时抛出异常
- javascript - 用 rsa 反应 js crypt 文本以在 qr 码上使用它