首页 > 技术文章 > 【论文阅读】Distant Supervision for Relation Extraction beyond the Sentence Boundary[ACL2017]

Harukaze 2021-01-26 22:14 原文

论文地址:https://www.aclweb.org/anthology/E17-1110.pdf

Abstract

第一个提出了针对与句间关系的distant supervision方法

At the core of our approach is a graph representation that can incorporate both standard dependencies and discourse relations, thus providing a unifying way to model建模 relations within and across sentences句子内部和句子之间的关系.并且为了提高模型的准确率和鲁棒性, 这个方法选择从graph 表征的不同路径上提取特征的方法, 这样一定程度上降低了语言解析器的误差带来的影响.结果: 与现存的远程监督法对比, 我们的方法抽出的关系的数量是原先的两倍左右。

1 Introduction

这篇文章提出了 DISCREX 方法, 也是第一个将远程监督法应用到句间关系抽取的研究. 其核心在于, 利用一个文本等级的graph represetation 来融合新的句间关系到原来的相邻关系和依存关系中. 并且, 使用多条路径来增强鲁帮性与正确率。

具体的关系有四个:

  • discourse phenomena  对话
  • coreference             共指
  • narrative structures       叙事结构
  • rhetorical relations        修辞

在大多数情况下,这写特征并没有与关系提取联系起来。我们所提出的提取框架使得这类discourse relation易于整合integrate。我们的实验评估了共指coreference和语篇分析discourse parsing的影响,为深入整合语篇in-depth integration研究迈出了一步a preliminary step toward in-depth integration with discourse research.

通过使用远程监督跨句关系抽取,在PubMed Central的海量文献库中抽取了大约64000distinct interactions,与原来的KB相比,获得的关系的数目翻倍。

2 Related Work

Recently, discourse parsing has received renewed interest (Ji and Eisenstein, 2014; Feng and Hirst, 2014; Surdeanu et al., 2015), and discourse information has been shown to improve performance in applications such as question answering (Sharp et al., 2015)

本文使用的特征标注工具:Stanford coreference systems斯坦福共指系统 (Lee et al., 2011; Recasens et al., 2013; Clark and Manning, 2015)

generated rhetorical relations生成修辞关系 using the winning approach (Wang and Lan, 2015) in the CoNLL-2015 Shared Task on Discourse Parsing在CoNLL-2015关于语篇分析的共享任务中,使用获胜的方法生成修辞关系

3 Distant Supervision for Cross-Sentence Relation Extraction

DISCREX : Distant Supervision for Cross-Sentence Relation Extraction。DISCREX学习一个分类器来预测两个实体之间的关系,给定实体同时出现的文本跨度。然而,与大多数现有方法不同的是,DISCREX允许包含多个句子的文本跨度,并探索这些实体之间可能存在的多条路径。

3.1 Distant Supervision

DISCREX的来源是: exsiting knowledge database + unlabeled text

大概的方法就是, 在大量的 unlabeled text 中, 寻找KB中已经存在的关系对共存的段落. 因为unlabeled text 有一百万篇左右的论文, 所以可以找出很多这样的例子, 这个作为 positive examples. 其次, 随即挑选共现的实体对, 作为 negative example. 使得正例和负例的数量一致。【寻找数据这个过程我们自己操作很难】

3.2 Minimal-Span Candidates

有时候, 在一篇文章中, 两个实体可能即在一个句子内共现, 也有可能在几个句子内共现, 也就是说, 在一短文字中, 共现超过了一次. 在这种情况下, 我们该采取那个共现作为标准呢? 我们倾向于认为离得近的表现出这种关系.

由此引发出一个问题, 如果在没有短的共现的情况下, 多少个句子之间我们认为它是有推理关系的?

实验结果, 在K=3时,结果好。

3.3 Document Graph

DISCREX引入了一个文档图,其中节点表示单词,边表示句子内和句子间的关系,如依赖关系、邻接关系和话语关系dependency, adjacency, and discourse relations。图1显示了一个横跨两个句子的示例文档图。每个节点都标记有词汇项、引理和词性lexical item, lemma, and partof-speech。我们使用了一组传统的句内边缘:类型化的、折叠的、源自句法分析的斯坦福依赖typed, collapsed Stanford dependencies derived from syntactic parses(de Marneffe et al.,2006)。为了减少解析器错误,我们还添加了相邻单词之间的边。

两个句子的文档图表示例。边缘表示传统的句内依存关系,以及相邻句子根之间的连接(NEXTSENT)。为了简单起见,我们省略了相邻单词之间的边或表示话语关系。

至于句间边缘,一个简单而直观的方法是在相邻句子的依赖根之间添加一条边缘:如果我们假设每个句子作为一个节点参与到一种话语依赖树discourse dependency tree

这表示一个简单的右分支基线this represents a simple right-branching baseline。为了收集修辞结构的更细粒度表示a finer grained representation of rhetorical structure,我们运行了一个最先进的语篇分析器discourse parser (Wang and Lan, 2015))来识别语篇关系discourse relations,它返回了一组单词跨度之间的标记二元关系a set of labeled binary relations between spans of words。我们只利用依赖关系和相邻的句子边adjacent sentence edges,找到了第一个跨度中任何词和第二个跨度中任何词any word in the first span and any word in the second span之间的最短路径,并添加了一条标记这两个词之间话语关系discourse relation的边。另一个潜在的跨句链接来源于共指 coreference。我们使用斯坦福的共指系统(包括统计和判定)生成了共指关系Stanford Coreference systems (both statistical and deter- ministic) (Lee et al., 2011; Recasens et al., 2013; Clark and Manning, 2015),并将回指的边添加到了它们的前继节点中added edges from anaphora to their antecedents.。

我们还考虑了一个特殊的跨句关系提取案例,即通过使用共指来增加单句候选词by augmenting singlesentence candidates with coreference (Koch et al., 2014; Augenstein et al., 2016)。也就是说,抽取仍然是在单个句子中进行的,但是实体链接被扩展到考虑一个关系参数的所有相关共指节点yet entity linking is extended to consider all coreference mentions for a relation argument。然而,这并没有产生更多的候选candidates(2%以上的积极例子),其中大部分不是跨句的(只有1%)。

3.4 Features

依赖路径是关系抽取的重要特征。DISCREX通过在document graph上定义特征模板来实现,其包括各种交错的边(依赖关系、词相邻、句相邻关系、语篇关系等)(dependency, word and sentence adjacency, discourse relation)。虽然这样会产生解析错误,但是可以通过增加邻接词之间的边add edges between adjacent words允许实体之间的多条路径策略来缓解。

在感兴趣的一对实体之间的路径上我们探索不同的features,我们假设每条路径是一系列节点和边$(n_1,e_1,n_2,,e_{L−1},n_L)$,用特殊实体标记节点替换$n_1$和$n_L$

Whole path features

我们为每条路径提取了四个二进制指示符特征four binary indicator features,节点$n_i$由它们的词法项、引理、部分speech标记或无表示lexical item, lemma, part-ofspeech tag, or nothing。这些有用路径的表现高精度但低召回指标

Path n-gram features

一个更健壮和可推广的方法是在每条路径上考虑一个滑动窗口。对于每个位置$i$,我们提取从每个节点开始的$n-gram (n = 1~5)$特征$(n_i, \text{then}  n_i·e_i  \text{and  so on until} n_i·e_i·n_{i+1}·e_{i+1}·n_{i+2})$每条边 $(e_i   \text{up to}  e_i·n_{i+1}·e_{i+1}·n_{i+2}·e_{i+2})$,同样,每个节点可以用它的词法项、引理或词性lexical item, lemma, or part of speech来表示,从而产生27个特征模板。我们添加了另外三个仅使用边标签edge labels的特征模板$(e_i;e_i·e_{i+1};  \text{and}  e_i·e_{i+1}·e_{i+2})$,总共30个特征模板

3.5 Multiple paths

先前的大多数工作只着眼于两个实体之间的最短路径。 当作者使用一致的词法和句法构造且解析器找到正确的解析时,此方法将行之有效。 但是,实际数据是包含很多噪音的。

减少错误和抗噪声的一种方法是考虑多个可能的路径。给定具有多种类型弧的文档图,节点之间通常有多条路径。例如,从基因导航到药物,我们可能只使用句法弧syntactic arcs,或仅使用邻接弧,或两者的某种组合。考虑到这些差异,就有更多的机会在看似不同的语言之间找到共同点。

我们研究了在文档图中对应于相关实体的节点之间改变最短路径数N的问题。默认情况下,除相邻单词之间的边外,所有边类型的权重均为1。从经验上讲,惩罚邻接边可以带来实质性的好处,尽管包含邻接弧对于多路径的好处很重要。这表明解析器产生了有价值的信息,但是我们应该采取反策略来适应解析器错误。

3.6 Evaluation

远程监督中没有标准的标注数据集,所以评估一般分为两种策略:
* held-out:一种策略是使用训练数据集中的保留样本,基本上将嘈杂的注释视为黄金标准。 这具有自动化的优点,但是由于假阴性(即,未知的具有该关系的实体对可能实际上具有该关系)而可能产生偏差的结果。
* 另一种策略是报告绝对召回率(从所有未标记文本中提取的次数),以及通过手动注释普通文本中的提取样本来估计精度的方法。

4 Experiments

远程监督知识库

4.2 Unlabeled Text

从PubMed Central获得生物医学文献。We preprocessed the text using SPLAT (Quirk et al., 2012) to conduct tokenization, part-of-speech tagging, and syntactic parsing, and obtained Stanford dependencies (de Marneffe et al., 2006) using Stanford CoreNLP (Manning et al., 2014). We used the entity taggers from Literome (Poon et al., 2014) to identify drug and gene mentions.【主要生成语料的标注工具】

4.3 Candidate Selection 候选集生成

采用K条连续句子来避免生成不可能的候选集元素,当某个实体对中的两个实体跨越句子过长,本身就失去了关系的可靠性。经过实验,作者认为最好的K=3。

4.4 Classifier 分类器

分类器是二元逻辑回归,使用L2的对数似然估计进行优化。初始化权重全为1,参数使用L_BFGS进行优化。将特征进行哈希处理,得到22bits长度的特征。

4.5 Automatic Evaluation & Manual Evaluation 自动评估和手动评估

自动评估采用五折交叉验证。

手动评估选450条实例,150条随机采样,150条评估0.9概率阈值,150条评估0.5概率阈值。两位标注者交叉评估。

5 Conclusion

我们提出了第一种将远程监督应用于句子间关系抽取的方法,即采用一种文档级图表示,该表示既包含了句子内的依赖关系,也包含了句子间的关系,如邻接关系和话语关系adjacency and discourse relations。我们对生物医学文献中药物-基因相互作用的提取进行了自动和人工评价。通过跨句抽取,我们的DISCREX系统在保持相同准确性的同时,将独特交互unique interactions的产量提高了一倍。使用远程监控,DISCREX将基因药物知识数据库(GDKD)的覆盖率提高了两个数量级,而不需要注释实例。

 

 

 

参考:

论文笔记:https://zhuanlan.zhihu.com/p/46312631

论文笔记:https://www.moshangxingzou.com/index.php/2020/05/19/distant-supervision-for-relation-extraction-beyond-the-sentence-boundary-%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/

论文笔记:https://www.pianshen.com/article/5937708736/

推荐阅读