ms-word - Libreoffice 修复的损坏的 Word docx (OpenXML) - 如何识别可能的根本原因?
问题描述
我正在尝试确定 Microsoft Word docx 损坏的根本原因,该文件是使用商业软件进行 PDF 转换的结果。尝试在 MS Word 中打开此文档时,我收到一条错误消息,没有说明任何具体内容,只是文件已损坏且无法打开。
现在,同一个文件可以在 Libreoffice 中正常打开。从 Libreoffice 中将文件另存为 docx 时,我也可以再次在 Word 中打开它。与 Libreoffice 创建的文件相比,解压后的 docx 文件(使用 diff 工具检查)中的 XML 文件的内容存在不少差异。但是,我不确定哪些会导致 Libreoffice 创建的文件未损坏。
此外,如果我解压缩 docx 并再次重新压缩,它也会在 Word 中正常打开。我使用 Hexeditor 在二进制级别检查了这两个文件,发现有很多差异,但很难甚至不可能理解这些差异的含义。
有没有人有类似的情况,也许可以对此有所了解?我不知道从哪里开始。谢了。
解决方案
通过使用 Apache POI 库 (poi.apache.org) 进行往返转换解决了问题
推荐阅读
- macos - 为什么这个访问父目录的代码在 Matlab 中不起作用?
- r - 如何在不删除行中的其余数据的情况下获得相交的行名
- javascript - 如何使函数更改先前分配的变量的值
- python - 如何创建“列表”类的子类,在实例化时对其进行排序?
- unity3d - 在播放模式下省略所有 Debug.Asserts
- ios - 使用verticalAlighment和alignmentGuide对齐视图的底部对齐
- reactjs - 我无法在按钮单击时删除 CRUD 应用程序中的组件
- excel - 需要一个工作表公式来检测单元格中的分隔符是否应该被忽略
- reactjs - 是否可以在滚动的 div 内锚定滚动?
- postgresql - postgresql 查询需要永远