首页 > 解决方案 > 使用 python-docx 检测损坏的文档文件

问题描述

你能帮我解决这个问题吗?从 python-docx (docx.Document(file_name)) 读取 .docx 文件时,如何检测 docx 文件是否正确或损坏。

在某些情况下,这些输入 docx 文件要么为空要么已损坏。如何使用此库标记这些案例

标签: pythonpython-docx

解决方案


中没有这样的功能python-docx。部分原因是虽然可以根据 ISO 规范中的模式确定文件是有效还是无效,但每个客户端都允许存在许多小的差异。允许的内容因客户而异;例如,LibreOffice 将接受的某些内容会在 Microsoft Word 中产生修复错误。

确定这一点的唯一可靠方法是尝试使用目标客户端打开文件,在 Microsoft Word 的情况下可能使用 VBA 之类的自动化。


推荐阅读