python - 使用 docs 文件:在 python 中打印每个段落的特定部分
问题描述
我在这样的 doc 文件中有一个文章列表:
[2] 世界银行集团,“目录来源:世界发展指标,数据来源:粮食及农业组织,AQUASTAT 数据。” 2014 年 10 月 15 日,[在线]。可用:https ://data.worldbank.org/indicator 。
[3] 伊朗能源部,“Zarrineh rood 和 Simineh rood 流域农业用水量减少 40% 的实施策略”,米扬多阿布平原水资源和消耗规划与管理研究,第 1 卷,2016 年。
只需要打印“”之间的每篇文章的名称
访问段落的是我的代码:
from docx import Document
doc = Document("References.docx")
for para in doc.paragraphs:
para = str(i.text.encode("utf-8"))
print(i)
解决方案
以下代码将提取每个段落的引号内的所有字符串作为列表:
import re
for para in doc.paragraphs:
para = str(i.text.encode("utf-8"))
str_text = re.findall(r'“(.*?)”',para)
您可以使用 str_text 这是一个列表来获取所需的文章。
推荐阅读
- neo4j - 如何删除密码中的大量关系?
- sql - SQL 复合键
- java - 无法运行程序“C:\Program Files (x86)\Java\jdk1.8.0_11\jre\bin\java.exe”:CreateProcess 错误=206,文件名或扩展名太长
- .net - 查看任务信息不起作用.NET 5
- c++ - 程序窗口不显示
- c# - 如何有条件地从返回任务的异步方法返回?
- java - maven-war-plugin:当 attachClasses 设置为 true 时,jar 在 nexus 中部署了两次
- linux - 检测当前脚本是否已更改而不使用子shell?(并启动新脚本)
- acumatica - 如何在 Acumatica 中使用推送通知?
- flutter - Flutter 从画布创建谷歌地图自定义标记