首页 > 解决方案 > 提取定义和定义对应的文本

问题描述

我正在尝试提取定义以及与该定义相关的文本。

定义提取相对容易,因为它们通常位于括号和引号中,因此我可以运行正则表达式来查找它们。

我遇到问题的部分是获取与定义一起出现的文本——它通常会出现在定义之前,但我不知道其中有多少单词。

例如:

2015(“公司章程”)。本协议已由公司正式有效地签署和交付,并在母公司和合并子公司的适当授权、签署和交付下,构成公司的合法、有效和有约束力的义务,可根据其条款对公司强制执行, 受破产、无力偿债、欺诈性转让、重组、暂停和类似的一般适用法律的约束,这些法律与或影响债权人的权利和一般股权原则(“破产和股权例外”)有关。”

我们提取了三个定义——“必要的公司投票”、“公司章程”和“破产和股权例外”。

Requisite Company Vote ”看起来定义应该是“集体条款(i),(ii)和(iii)”,但实际上也应该添加“第(a)小节”或者我实际上应该抓住条款的文本(i )、(ii) 和 (iii)

公司章程”貌似应该是《公司章程第九次修改和重述,2015年12月28日以特别决议通过》

破产和股权例外”看起来应该是“破产、无力偿债、欺诈性转让、重组、暂停和类似的普遍适用的与或影响债权人权利和一般股权原则的法律”

这只是三个示例,我必须构建足够动态的东西来处理不同类型的定义。

我首先使用 NLTK 和语法构建名词短语,但即使测试了各种不同的语法,NP 似乎也没有捕捉到我需要的一切。我考虑过使用编辑距离测量 - 可能通过在逐字之前构建字符串并测试距离,但我能想到的所有事情似乎都有自己的缺陷,所以我正在寻找想法。

标签: pythonnlpnltkextract

解决方案


推荐阅读