首页 > 解决方案 > 如何从 DOC(不是 DOCX)获取 XML?

问题描述

对于 DOCX 文档,我会:

document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')

如何为 DOC 文档执行此操作?

标签: pythonxmlms-worddocxdoc

解决方案


你没有。

DOCX 非常难以处理,它们基于 XML 并由国际标准组织记录。DOC 文件是二进制和专有的。

不要尝试直接处理 DOC 文件。 首先将它们转换为 DOCX。

看:


推荐阅读