python - 如何从 DOC(不是 DOCX)获取 XML?
问题描述
对于 DOCX 文档,我会:
document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')
如何为 DOC 文档执行此操作?
解决方案
你没有。
DOCX 非常难以处理,它们基于 XML 并由国际标准组织记录。DOC 文件是二进制和专有的。
不要尝试直接处理 DOC 文件。 首先将它们转换为 DOCX。
看:
推荐阅读
- mysql - LibreOffice Base 数据透视表以获得更好的报告,无需计算值
- android - 找不到路径“/content:/com.android.externalstorage.documents/document/6759-130B%3ANew%20Text%20Document.txt”的一部分
- python-3.x - python 3.8 flask apache 2.4 wsgi multiprocessing RuntimeError: fork not supported for subinterpreters
- c# - Quartz 作业不能使用 autofac 和带有服务的构造函数运行
- webpack - Workbox-webpack-plugin 对我来说不能离线工作
- python - 使用 BS4 构造最短的有效 css 选择器
- python - google colab pytorch 版本错误(课程 231n)
- java - Java sublime.build 在一个目录中工作,但在另一个目录中不工作
- javascript - Javascript:轮播活动点和左右按钮
- kubernetes - 禁止:用户,“代码”:使用 curl 访问 kube-apiserver 时出现 403 错误