首页 > 解决方案 > 如何使用 python docx2txt 模块从 docx 文件中检索特定部分

问题描述

我正在使用 python docx2txt模块来处理 docx 文件。现在我可以使用这个模块来获取整个文档。但我的要求是逐节检索文档(比如单独标题的内容)。请帮助我获取使用 docx2txt 库的特定部分或标题。

标签: python

解决方案


docx2text模块没有内置功能。

这意味着你有几个选择。

  • 尝试从转换后的文本中识别节标题和节。这可能会很困难,因为很难将单句段落与节标题区分开来。
  • 使用模块打开docx文件。zipfile然后从 zipfile 中读取word/document.xml文件并提取信息。这将为您提供完整的 XML 结构,因此应该可以识别节标题。
  • 使用python-docx,就像在这个问题中一样。

所有计算机化处理都要求文件具有一致的内部结构。如果您的文档使用真正的节标题但也使用格式化的行来开始一个节,那么您的转换肯定会失败。


推荐阅读