首页 > 解决方案 > 为什么 python-docx 只读取 docx 的第一段?

问题描述

再会!

我目前正在尝试使用 python-docx 从 docx 文件中读取文本。问题部分的 xml 如下所示:

<w:t xml:space="preserve">一些文本
<w:br />
更多文本
<w:br />
<w:br />
更多文本
</w:t>

因此,当使用 python-docx 阅读它时,它根本看不到“更多文本”和“更多文本”部分。我认为这是因为每一行都没有用 <w:t> 和 </w:t> 框起来,但整个运行还包括换行符。
所以我正在编写代码:

doc = docx.Document('File.docx')
for para in doc.paragraphs:
    print(para.text)

输出:

一些文字

想要的输出:

一些文本
更多文本
更多文本

有谁知道如何使用 python-docx 或 python 中的其他库使其工作?
谢谢你。

标签: pythonxmltext-parsingpython-docx

解决方案


推荐阅读