首页 > 解决方案 > Libreoffice 修复的损坏的 Word docx (OpenXML) - 如何识别可能的根本原因?

问题描述

我正在尝试确定 Microsoft Word docx 损坏的根本原因,该文件是使用商业软件进行 PDF 转换的结果。尝试在 MS Word 中打开此文档时,我收到一条错误消息,没有说明任何具体内容,只是文件已损坏且无法打开。

现在,同一个文件可以在 Libreoffice 中正常打开。从 Libreoffice 中将文件另存为 docx 时,我也可以再次在 Word 中打开它。与 Libreoffice 创建的文件相比,解压后的 docx 文件(使用 diff 工具检查)中的 XML 文件的内容存在不少差异。但是,我不确定哪些会导致 Libreoffice 创建的文件未损坏。

此外,如果我解压缩 docx 并再次重新压缩,它也会在 Word 中正常打开。我使用 Hexeditor 在二进制级别检查了这两个文件,发现有很多差异,但很难甚至不可能理解这些差异的含义。

有没有人有类似的情况,也许可以对此有所了解?我不知道从哪里开始。谢了。

标签: ms-wordopenxmldocxlibreoffice

解决方案


通过使用 Apache POI 库 (poi.apache.org) 进行往返转换解决了问题


推荐阅读