首页 > 解决方案 > 使用 docs 文件:在 python 中打印每个段落的特定部分

问题描述

我在这样的 doc 文件中有一个文章列表:

[2] 世界银行集团,“目录来源:世界发展指标,数据来源:粮食及农业组织,AQUASTAT 数据。” 2014 年 10 月 15 日,[在线]。可用:https ://data.worldbank.org/indicator 。

[3] 伊朗能源部,“Zarrineh rood 和 Simineh rood 流域农业用水量减少 40% 的实施策略”,米扬多阿布平原水资源和消耗规划与管理研究,第 1 卷,2016 年。

只需要打印“”之间的每篇文章的名称

访问段落的是我的代码:

from docx import Document

doc = Document("References.docx")

for para in doc.paragraphs:
    para = str(i.text.encode("utf-8"))
    print(i)

标签: pythonfiledocumentwordre

解决方案


以下代码将提取每个段落的引号内的所有字符串作为列表:

import re
for para in doc.paragraphs:
    para = str(i.text.encode("utf-8"))
    str_text = re.findall(r'“(.*?)”',para)

您可以使用 str_text 这是一个列表来获取所需的文章。


推荐阅读