首页 > 解决方案 > Python:提取两个节号之间的段落

问题描述

我正在学习正则表达式并在两个节号之间提取一段。任何意见都非常感谢!

关于我想要实现的一些信息。我想从贷款合同中提取保密部分。因此,我的段落将以节号和“机密性”一词开头。它将在下一个节号处停止。

这是我的代码:

with open('filename.txt') as f:
confi=  re.findall(r'\d{1,2}\.\d{1,2}\s*Confidentiality\.\s*(.*?)\d{1,2}\.\d{1,2}',f.read(), re.DOTALL)

这是示例段落:

13.18 保密。如果任何借款人向代理、平面图代理或任何放款人提供,(…) 本第13.18条项下的保密义务不适用于信息的这些部分 (…) 参与者和潜在受让人和参与者同意受本第 13.18 节条款的约束,(……)本协议项下强加给它的此类信息。13.19 放弃陪审团审判。

但是,代码没有捕获 13.18 和 13.19 之间的段落,而是在段落中间的“Section 13.18”处。复杂之处在于节号并不总是保持 13.18,而是随着不同的文本文件而变化。我很欣赏你的评论!

标签: pythonregex

解决方案


推荐阅读