pdf - 解析/转换旧版 Word 文档?(msword2 / 5)
问题描述
我们得到了一些非常古老的 .doc 文档。通常我们使用 tika(我们的应用程序通常进行文本提取,然后进行 PDF/A 转换),但显然目前不支持 msword2(和 msword5) 。我发现的唯一选择是 Libreoffice 命令行。还有别的事吗?
搜索这个非常困难,因为其他人似乎都在寻找“旧”,如 1995< 而不是 <1991
解决方案
我们对这个问题进行了更多研究,似乎唯一的答案是我们需要使用某个版本的 libwps 库(与 LibreOffice 相同)。
我们将研究使用 Libreoffice 命令行或库本身的优缺点,并且可能只会创建一个微服务供我们的应用程序使用。
推荐阅读
- swift - 在 imagePicker 前面显示一个视图
- android - 由于添加了对 android-P 的支持,导航抽屉无法正常工作
- c# - 过滤 ASP.NET Web API 中的响应文件
- javascript - onload 属性在 jsp 中不起作用
- sql - SQLSTATE [23000]:违反完整性约束:1048 列 'cuAddress' 不能为空
- android - 单击文本视图时加载网络视图
- haskell - 了解流媒体库中的类型
- spring-boot - EmbeddedServletContainerCustomizer 在 Spring Boot 2 中无法用于配置会话超时
- docker - 在 Windows 中,Docker 部署 .net 核心并没有正确执行
- javascript - 将 json 对象的键和值填充到动态创建的输入字段中