python - 使用 python-docx 检测损坏的文档文件
问题描述
你能帮我解决这个问题吗?从 python-docx (docx.Document(file_name)) 读取 .docx 文件时,如何检测 docx 文件是否正确或损坏。
在某些情况下,这些输入 docx 文件要么为空要么已损坏。如何使用此库标记这些案例
解决方案
中没有这样的功能python-docx
。部分原因是虽然可以根据 ISO 规范中的模式确定文件是有效还是无效,但每个客户端都允许存在许多小的差异。允许的内容因客户而异;例如,LibreOffice 将接受的某些内容会在 Microsoft Word 中产生修复错误。
确定这一点的唯一可靠方法是尝试使用目标客户端打开文件,在 Microsoft Word 的情况下可能使用 VBA 之类的自动化。
推荐阅读
- terraform - Terraform 嵌套动态块辅助
- asp.net-core - 引导模式确认 - 删除操作不起作用
- sql - 如何使用基于分区的 INSERT INTO 覆盖表?- 雅典娜
- python - 如何通过处理空格并返回所有匹配项来使用特殊符号拆分字符串?
- nestjs - 无法从 NestJS 中的请求中获取 cookie
- react-native - Native Base - _focus 不改变某些组件样式
- vue.js - Power BI Embeded 无法实时工作
- r - R转换嵌套的for循环_嵌套的并行foreach不起作用
- ruby-on-rails - 如何在 gem CombinePDF 中使用 UTF-8 字体?
- terragrunt - 无法通过 githubaction 工作流程初始化 terraform