python - 如何使用 python docx2txt 模块从 docx 文件中检索特定部分
问题描述
我正在使用 python docx2txt模块来处理 docx 文件。现在我可以使用这个模块来获取整个文档。但我的要求是逐节检索文档(比如单独标题的内容)。请帮助我获取使用 docx2txt 库的特定部分或标题。
解决方案
该docx2text
模块没有内置功能。
这意味着你有几个选择。
- 尝试从转换后的文本中识别节标题和节。这可能会很困难,因为很难将单句段落与节标题区分开来。
- 使用模块打开
docx
文件。zipfile
然后从 zipfile 中读取word/document.xml
文件并提取信息。这将为您提供完整的 XML 结构,因此应该可以识别节标题。 - 使用
python-docx
,就像在这个问题中一样。
所有计算机化处理都要求文件具有一致的内部结构。如果您的文档使用真正的节标题但也使用格式化的行来开始一个节,那么您的转换肯定会失败。
推荐阅读
- java - 使用 Java 创建一个将 Int 转换为 String 的方法
- c# - 如何避免 MVC5 + Identity 中的会话劫持?/ 使cookie服务器端无效
- python - pythonw - 无法导入大多数(如果不是全部)站点包,甚至一些内置模块
- python - 当我输入 3 时,我得到打印 4 次的结果。你能告诉我为什么会这样吗?我是 python 新手
- python - 在类范围内导入模块的类型提示
- c++ - 如何调试 WebKit2GTK+ 扩展
- php - Nginx cors 启用 html 文件不起作用
- adobe - InDesign - 用于查找尖括号之间的特定单词并将其复制到列表中的脚本
- php - 如何修复'PHP代码在laravel公用文件夹中不起作用'
- python - 如何根据Python中的起始行和结束行获取类的范围?