首页 > 解决方案 > 解析/转换旧版 Word 文档?(msword2 / 5)

问题描述

我们得到了一些非常古老的 .doc 文档。通常我们使用 tika(我们的应用程序通常进行文本提取,然后进行 PDF/A 转换),但显然目前不支持 msword2(和 msword5) 。我发现的唯一选择是 Libreoffice 命令行。还有别的事吗?

搜索这个非常困难,因为其他人似乎都在寻找“旧”,如 1995< 而不是 <1991

标签: pdfms-wordlibreofficeapache-tika

解决方案


我们对这个问题进行了更多研究,似乎唯一的答案是我们需要使用某个版本的 libwps 库(与 LibreOffice 相同)。

我们将研究使用 Libreoffice 命令行或库本身的优缺点,并且可能只会创建一个微服务供我们的应用程序使用。


推荐阅读