python - 为什么 python-docx 只读取 docx 的第一段?
问题描述
再会!
我目前正在尝试使用 python-docx 从 docx 文件中读取文本。问题部分的 xml 如下所示:
<w:t xml:space="preserve">一些文本
<w:br />
更多文本
<w:br />
<w:br />
更多文本
</w:t>
因此,当使用 python-docx 阅读它时,它根本看不到“更多文本”和“更多文本”部分。我认为这是因为每一行都没有用 <w:t> 和 </w:t> 框起来,但整个运行还包括换行符。
所以我正在编写代码:
doc = docx.Document('File.docx')
for para in doc.paragraphs:
print(para.text)
输出:
一些文字
想要的输出:
一些文本
更多文本
更多文本
有谁知道如何使用 python-docx 或 python 中的其他库使其工作?
谢谢你。
解决方案
推荐阅读
- r - 如何用整数和字符绑定行
- font-awesome - FontAwesome: css 内容: "\f468"; 对某些人不起作用
- azure - Traefik:部署在 Azure 上的 Swarm 模式中的错误网关
- android - 使用 Retrofit 时的 Android 错误
- html - 我可以将空 cookie 发送到浏览器吗?
- javascript - 如何在自适应卡片中捕获按钮文本(对于按下的按钮用户)
- marklogic - 如何为没有层次结构的普通 JSON 创建 TDE
- python - Pandas as_matrix() 到值保持列顺序
- azure-active-directory - 如何找到需要 Microsoft Graph“读取目录数据”权限的 Azure AD 应用程序的管理员同意 URL?
- node.js - FB 是否使用了不正确的 MQTT 协议?