python - 使用python从.docx文件中的表中获取文本
问题描述
我需要将文档的全文作为 python 字符串。所以,我使用 docx 库:
doc = docx.Document(user_file)
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
text = '\n'.join(fullText)
它有效,但忽略表格中的文本。我应该如何从表中获取数据?也许有什么方法可以清除标签或以某种方式准备文件?提前致谢!
解决方案
doc.tables
按文档顺序返回与文档中的表对应的 Table 实例列表。请注意,只有出现在文档顶层的表格才会出现在此列表中;不会出现嵌套在表格单元格内的表格。<w:ins> 或 <w:del> 等修订标记内的表格也不会出现在列表中。
推荐阅读
- r - 如果存在多行,则 R_exclude 具有包含值的列的行
- android - 运行从 android APK 编译的 ELF 二进制文件需要什么?(了解 android 内部结构)
- sql - 如何将 YYYYMM 转换/提取为年份和月份名称?Teradata SQL
- ibm-doors - 如何创建一个视图来显示单个项目下所有正式模块中的所有现有属性 DOORS?
- r - rtweet“search_tweets”函数不返回坐标
- flutter - Flutter:使用扩展
- mysql - 有没有办法在 mariadb/mysql 的表中为特定类型的数据划分表的 id
- oracle - 在 Oracle 中按 TIMESTAMP`S 日期分组
- security - 有没有办法在 keycloak 中添加领域级协议映射器?
- javascript - 我可以使用 javascript 对下载的表单数据中的评论进行硬编码吗?