首页 > 技术文章 > 【论文阅读】MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

Harukaze 2021-10-30 19:52 原文

论文地址:https://aclanthology.org/2021.acl-long.121.pdf

代码地址:https://github.com/CoderMusou/MECT4CNER

Abstract

近年来,在中文命名实体识别(NER)中,词语增强已成为一种非常流行的方法,它可以减少切分错误,增加中文词语的语义和边界信息。然而,这些方法在整合了词汇信息之后,往往忽略了汉字结构的信息。汉字自古以来就是从象形文字演变而来的,它们的结构往往反映了更多关于汉字的信息。本文提出了一种新的基于多元数据Embedding的CrossTransformer(MECT),利用汉字的结构信息来提高汉字的性能。具体来说,我们在一个两流转换器two-stream transformer中使用多元数据嵌入来集成汉字特征和部首级嵌入。MECT结合汉字的结构特点,能够更好地捕捉汉字的语义信息,为NER提供信息支持。在几个著名的基准测试数据集上的实验结果证明了所提出的MECT方法的优点和优越性。

1 Introduction

汉字也有一种类似于英语词根和词缀的结构。根据表1中的例子,我们可以看到汉字的结构有不同的分解方法,包括汉字的部首(CR)、头尾(HT)和结构成分(SC)。汉字自古以来就是由象形文字演变而来的,它们的结构往往反映了更多的信息。

表2中有一些例子。字形结构可以丰富汉字的语义,提高NER的性能。例如,BiLSTM-CRF方法(Dong et al.,2016)首先通过汉字结构的分解来获得字符级嵌入,以提高NER的性能。然而,LSTM基于时间序列建模,每个单元的输入取决于前一个单元的输出。因此,基于LSTM的模型比较复杂,并行能力有限。

 为了解决上述问题,我们利用了扁平晶格变换器(Flat Lattice Transformer,FLAT)(Li et al.,2020)在高效并行计算和优秀词汇学习方面的优势,并在此基础上引入了部首流radical stream作为扩展。通过结合基本信息,我们提出了一种基于多元数据嵌入的CrossTransformer(MECT)。MECT具有格流和部首流lattice- and radical-streams,不仅具有FLAT的词边界和语义学习能力,而且增加了汉字部首的结构信息。这对于NER任务非常有效,并且改进了不同基准上的基线方法。拟议方法的主要贡献包括:

·The use of multi-metadata feature embedding of Chinese characters in Chinese NER.利用多元数据特征嵌入汉字在中文NER中的应用。

·提出了一种新的两流模型,该模型结合了汉字的部首、字符和单词the radicals, characters and words,提高了MECT方法的性能。

·在几个著名的中国NER基准数据集上对所提出的方法进行了评估,证明了所提出的方法相对于最先进的方法的优点和优越性。

2 Related Work

提出的MECT方法的关键是利用汉字的部首信息来增强汉字NER模型。因此,我们将重点放在文献中主流的信息增强方法上。汉语NER增强方法主要有词汇信息融合和字形结构信息融合两种lexical information fusion and glyph-structural information fusion.。

Lexical Enhancement词汇强化

在中文NER中,最近的许多研究使用词匹配方法来增强基于字符的模型。一种典型的方法是Lattice LSTM模型(Zhang和Yang,2018),该模型通过编码和匹配词典中的单词来提高NER性能。最近,一些词汇增强方法被提出使用CNN模型,如LR-CNN(Gui等人,2019a),CAN-NER(Zhu和Wang,2019)。图形网络也被用于词法增强。典型的是LGN(Gui等人,2019b)。此外,还有基于变换器的词汇增强方法,如PLT(Xue et al.,2019)和FLAT。SoftLexicon(Ma et al.,2020)通过标签和概率方法在字符表示层引入词汇信息。

Glyph-structural Enhancement字形结构增强

一些研究也使用了汉字中的字形结构信息。例如,Dong等人(2016年)率先研究了部首级信息在汉语NER中的应用。他们使用Bi LSTM提取部首级嵌入,然后将其与字符嵌入连接起来作为最终输入。Bi LSTM中使用的基本信息是结构组件(SC),如表1所示,它在MSRA数据集上实现了最先进的性能。Glyce(Meng et al.,2019)模型使用汉字图像提取汉字的笔划和结构等特征,从而在汉字识别中取得了良好的性能。其他一些方法(Xu等人,2019年;Song等人,2020年)也建议使用部首信息和腾讯预训练embedding来提高性能。在这些作品中,汉字的结构成分被证明能够丰富汉字的语义,从而产生更好的表现。

3 Background

该方法基于Flat-Lattice Transformer(Flat)模型。因此,我们首先简要介绍FLAT,它通过添加单词格信息(包括语义和位置边界信息)来改进Transformer的编码器结构。这些词格是通过字典匹配得到的。

图1显示了FLAT的输入和输出。它使用由头部和尾部位置转换的相对位置编码来拟合单词的边界信息。相对位置编码$R_{ij}$的计算如下:

$\begin{aligned} \boldsymbol{R}_{i j} &=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{h_{i}-t_{j}}\right.\right.\\ &\left.\left.\oplus \boldsymbol{p}_{t_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right) \end{aligned}$

其中$W_r$是一个可学习的参数,$h_i$ and $t_i$ 表示第$i$个字符的头部位置和尾部位置,⊕表示串联操作,$p_{span}$作为inVaswani等人(2017年)获得:

$\begin{aligned} \boldsymbol{p}_{\text {span }}^{(2 k)} &=\sin \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \\ \boldsymbol{p}_{\text {span }}^{(2 k+1)} &=\cos \left(\frac{\text { span }}{10000^{2 k / d_{\text {model }}}}\right) \end{aligned}$

where $p_{span}$ corresponds topin Eq. (1), and span denotes $h_i−h_j$,$h_i−t_j$,$t_i−h_j$ and $t_i−t_j$. Then the scaled dot-product attention is obtained by:

$\operatorname{Att}(\boldsymbol{A}, \boldsymbol{V})=\operatorname{softmax}(\boldsymbol{A}) \boldsymbol{V}$
$\boldsymbol{A}_{i j}=\left(\boldsymbol{Q}_{i}+\boldsymbol{u}\right)^{\top} \boldsymbol{K}_{j}+\left(\boldsymbol{Q}_{i}+\boldsymbol{v}\right)^{\top} \boldsymbol{R}_{i j}^{*}$
$[\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}]=E_{x}\left[\boldsymbol{W}_{q}, \boldsymbol{W}_{k}, \boldsymbol{W}_{v}\right]$

where $\boldsymbol{R}_{i j}^{*}=\boldsymbol{R}_{i j} \cdot \boldsymbol{W}_{R} \cdot \boldsymbol{u}$,$v$ and $W$ are learnable parameters

4 The Proposed MECT Method

为了更好地整合汉字组件的信息,我们使用汉字结构作为另一种元数据,并设计了一种两流形式的多元数据嵌入网络。拟议网络的架构如图2a所示。该方法基于Transformer的编码器结构和FLAT方法,综合了汉语单词的语义和边界信息。提出的两流模型使用了一个类似于自注意结构的交叉变换模块来融合汉字成分的信息。在我们的方法中,我们还使用了在视觉语言任务中广泛使用的多模式协作注意方法(Lu等人,2019)。不同之处在于,我们添加了一个随机初始化的注意矩阵来计算这两种元数据嵌入的注意偏差。

 4.1 CNN for Radical-level Embedding

汉字以象形文字为基础,其意义以物体的形状表达。在这种情况下,汉字的结构对NER有一定的有用信息。例如,诸如艹’ (草)和'木’ (木材)通常代表植物,提高了对中药实体的认识。再比如说,月’ (身体)代表人体部位或器官,以及疒’ (疾病)代表疾病,这有利于中国医疗领域。此外,中国人在命名方面有自己的文化和信仰。激进分子钅’ (金属),'木’ (木头),'氵’ (水),火’ (火灾),以及土’ 以五行学说为代表的地球常被用作人名或公司名。但是锈’ (锈迹),杀’ (杀死),'污’ (土)"灾’ (灾难)和堕’ (fall)通常不作为名称使用,即使它们包含了吴兴理论的某些元素。这是因为其他部首成分也决定了汉字的语义。通常出现负面或与中国文化信仰冲突的部首通常不用于命名。

 因此,我们选择表1中信息量较大的结构成分(SC)作为汉字的径向特征,并使用卷积神经网络(CNN)提取汉字特征。CNN网络的结构图如图3所示。我们首先将汉字分解成SC,然后将部首输入CNN。最后,利用最大池和全连通层实现汉字部首级的特征嵌入。

4.2 The Cross-Transformer Module

在字根特征提取之后,我们提出了一种交叉变换网络来获取汉字结构的补充语义信息。它还利用上下文和词汇信息来丰富汉字的语义。交叉变压器网络如图2b所示。与Transformer中的自关注方法不同,我们使用两个Transformer编码器来交叉汉字的格和根信息。We use two Transformer encoders to cross the lattice and radical information of Chinese characters

输入$\boldsymbol{Q}_{L}\left(\boldsymbol{Q}_{R}\right), \boldsymbol{K}_{L}\left(\boldsymbol{K}_{R}\right), \boldsymbol{V}_{L}\left(\boldsymbol{V}_{R}\right)$通过晶格的线性变换the linear transformation of lattice 和偏旁级特征嵌入radical-level feature embedding得到:

$\left[\begin{array}{c}\boldsymbol{Q}_{L(R), i} \\ \boldsymbol{K}_{L(R), i} \\ \boldsymbol{V}_{L(R), i}\end{array}\right]^{\top}=\boldsymbol{E}_{L(R), i}\left[\begin{array}{c}\boldsymbol{W}_{L(R), Q} \\ \boldsymbol{I} \\ \boldsymbol{W}_{L(R), V}\end{array}\right]^{\top}$

where $E_L$ and $E_R$ are lattice embedding and radical-level embedding,$I$ is the identity matrix, and each $W$ is a learnable parameter. Then we use the relative position encoding in FLAT to represent the boundary information of a word and calculate the attention score in our Cross-Transformer:

$\operatorname{Att}_{L}\left(\boldsymbol{A}_{R}, \boldsymbol{V}_{L}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{R}\right) \boldsymbol{V}_{L}$,
$\operatorname{Att}_{R}\left(\boldsymbol{A}_{L}, \boldsymbol{V}_{R}\right)=\operatorname{Softmax}\left(\boldsymbol{A}_{L}\right) \boldsymbol{V}_{R}$,
$\boldsymbol{A}_{L(R), i j}=\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{u}_{L(R)}\right)^{\top} \boldsymbol{K}_{R(L), j}$
$+\left(\boldsymbol{Q}_{L(R), i}+\boldsymbol{v}_{L(R)}\right)^{\top} \boldsymbol{R}_{L(R), i j}^{*}$,

where $u$ and $v$ are learnable parameters for attention bias in Eq. (10),$A_L$ is the lattice attention score, and $A_R$ denotes the radical attention score. And $R^{∗}_{ij}=R_{ij}·W_R$.$W_R$ are learnable parameters. The relative position encoding,$R_{ij}$, is calculated as follows:

$\boldsymbol{R}_{i j}=\operatorname{ReLU}\left(\boldsymbol{W}_{r}\left(\boldsymbol{p}_{h_{i}-h_{j}} \oplus \boldsymbol{p}_{t_{i}-t_{j}}\right)\right)$

4.3 Random Attention

我们实证发现,在Cross-Transformer中使用随机注意可以提高所提出方法的性能。这可能是由于格子和根特征嵌入lattice and radical feature embedding对注意偏向的要求,能更好地适应两个子空间的得分。Random attention是一个随机初始化的参数矩阵$\boldsymbol{B}^{\text {max_len } \times \text { max_len }}$,添加到先前的注意分数中,以获得总注意分数:

$\boldsymbol{V}_{L}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{R}+\boldsymbol{B}\right) \boldsymbol{V}_{L}$
$\boldsymbol{V}_{R}^{*}=\operatorname{Softmax}\left(\boldsymbol{A}_{L}+\boldsymbol{B}\right) \boldsymbol{V}_{R}$

4.4 The Fusion Method

为了减少信息损失,我们直接将晶格和偏旁特征 lattice and radical features连接起来,并将它们输入到一个完全连接的层中进行信息融合:

Fusion $\left(\boldsymbol{V}_{L}^{*}, \boldsymbol{V}_{R}^{*}\right)=\left(\boldsymbol{V}_{R}^{*} \oplus \boldsymbol{V}_{L}^{*}\right) \boldsymbol{W}^{o}+\boldsymbol{b}$

where $⊕$ denotes the concatenation operation,$W_o$ and $b$ are learnable parameters.

After the fusion step, we mask the word part and pass the fused feature to a Conditional Random Field (CRF) (Lafferty et al.,2001) module.

 5 Experimental Results

在本节中,我们将在四个数据集上评估所提出的MECT方法。为了使实验结果更加合理,我们还建立了两种额外的工作方法来评估双流模型中自由基的性能。我们使用span方法计算F1分数(F1)、精确度(P)和召回率(R)作为评估指标。

5.1 Experimental Settings

我们使用了四个主流的中国NER基准数据集:微博(彭和德雷泽,2015;何和孙,2016)、Resume(张和杨,2018)、MSRA(Levow,2006)和OnNotes 4.0(Weischedel和Consortium,2013)。MSRA和OnNotes4.0的语料来自新闻,微博的语料来自社交媒体,简历的语料来自新浪财经的简历数据。表3显示了这些数据集的统计信息。其中,微博数据集有四种类型的实体,包括PER、ORG、LOC和GPE。简历有八种类型,包括CONT、EDU、LOC、PER、ORG、PRO、RACE和TITLE。OnNotes4.0有四种类型的实体:PER、ORG、LOC和GPE。MSRA数据集包含三种类型的实体,即组织、PER和LOC。

 我们使用最先进的方法FLAT作为基线模型。FLAT是一种基于变压器并与晶格相结合Transformer and combined with lattice的中文NER模型。此外,我们还将该方法与经典的和创新的中文NER模型进行了比较。我们使用信息量更大的“SC”作为基本特征,它来自在线新华字典。字符和单词的预训练嵌入pre-trained embedding of characters and words与FLAT相同。

对于超参数,我们为CNN使用了30个大小为3的一维卷积核。我们使用SMAC(Hutter et al.,2011)算法搜索最优超参数。此外,我们还设置了不同的学习速率来训练CNN的radical-level嵌入。读者可以参考附录了解我们的超参数设置。

 5.2 Comparison with SOTA Methods

在本节中,我们将评估和分析所提出的MECT方法,并与经典方法和最先进的方法进行比较。实验结果如表4-7所示每个表分为四个块。第一块包括中国经典的NER方法。第二个报告了最近公布的最新方法所获得的结果。第三个和第四个是所提出的MECT方法以及基线模型得到的结果。

微博:表4显示了在微博上获得的命名实体(NE)、名义实体nominal entities(NM)和两者(总体)的F1分数结果。从结果可以看出,MECT达到了最先进的性能。与基线法相比,MECT在F1指标方面提高了2.98%。对于NE度量,该方法达到61.91%,优于所有其他方法。

 简历:在简历数据集上获得的结果如表5所示。第一块展示了Zhang和Yang(2018)在字符级和单词级模型上的比较结果。我们可以观察到,将单词特征合并到字符级模型中的性能优于其他模型。此外,MECT结合了词汇和词根特征,F1分数高于其他模型和基线方法。

 Ontonotes 4.0:表6显示了在Ontonotes 4.0上获得的结果。符号“§”表示黄金分割,符号“¶”表示自动分割。其他模型没有分段,使用词汇匹配。与基线法相比,MECT的F1得分提高了0.47%。MECT还实现了较高的召回率,保持了准确率和召回率相对稳定。

 MSRA:表7显示了在MSRA上获得的实验结果。在第一个区块中,Dong等人(2016)提出的结果是第一个使用中国NER中的部首信息的方法。从表中可以看出,MECT的总体性能高于现有的SOTA方法。类似地,我们的召回率实现了更高的性能,因此最终F1具有一定的性能提升。

 With BERT:除了对四个数据集进行单模型评估外,我们还结合SOTA方法(BERT)对所提出的方法进行了评估。BERT模型与使用Cui等人(2020年)发布的“BERT-wwm”的FLAT模型相同。结果显示在每个表的第四块中。BERT的结果取自FLAT论文。我们可以发现,MECT进一步显著提高了BERT的性能。

5.3 Effectiveness of Cross-Transformer

所提出的交叉变换方法有两个子模块:格型和根型lattice and radical attentions。图4包括两个热图,用于规范化两个模块的注意力分数。从这两幅图中可以看出,格注意更关注单词和字符之间的关系,因此该模型可以获得单词的位置信息和边界信息。部首注意关注全局信息,通过部首特征纠正每个字符的语义信息。因此,格点注意和根点注意为所提出的MECT方法在中文NER中的性能提升提供了补充信息。

 5.4 Impact of Radicals

我们可视化了CNN网络得到的字根级radical-level嵌入,发现具有相同字根或相似结构的汉字的余弦距离较小。例如,图5显示了在简历数据集上训练的部分汉字嵌入。突出显示的点表示接近汉字的字符‘华’. 我们可以看到它们有相同的根或相似的结构。它可以在一定程度上增强汉字的语义信息。

 我们还检查了MECT和FLAT ONTONOTES 4.0的推理结果,发现了许多令人兴奋的结果。例如,某些单词的百分比为'百分之四十三点二(43.2%)在训练数据集中错误地标记为PER,这导致FLAT在测试数据集中用PER标记单词的百分比,而MECT避免了这种情况。还有一些词,比如'田时’ and '以国’ 这出现在词典中,FLAT错误地将其识别为有效单词,导致识别错误。我们的MECT通过关注部首信息来解决这些问题。此外,在FLAT中,一些数字和字母被错误地标记为PER、ORG或其他。我们在测试数据集上比较了FLAT和MECT的每标签准确度。FLAT达到81.6%,MECT达到86.96%,这是一个非常显著的改进。

5.5 Analysis in Efficiency and Model Size

我们使用相同的FLAT方法评估NVIDIA GeForce RTX 2080Ti卡上MECT的并行和非并行推理速度,使用batch_size=16和batch_size=1。我们以FLAT的非并行版本为标准,计算了其他模型的相对推理速度。结果如图6所示。根据该图,即使MECT向FLA T添加了变压器编码器,并行推理速度也仅降低了0.15。相对于LSTM、CNN和一些基于图形的网络模型,我们的模型的速度相当快。因为Transformer可以充分利用GPU的并行计算能力,所以MECT的速度没有下降太多,但仍然比其他型号更快。该模型的参数介于200万到400万之间,由数据集中的最大句子长度和模型中的$d_{model}$大小决定。

 5.6 Ablation Study

为了验证所提出方法的主要组成部分的有效性,我们在图7中设置了两个实验。在实验A中,我们只使用了一个带有改进的自我注意的单流模型single-stream model with a modified self-attention,这与原来的FLAT模型相似。区别在于我们使用随机初始化的注意矩阵(随机注意)进行注意计算。我们结合了格嵌入和根级嵌入lattice embedding and radical-level embedding作为模型的输入。目的是验证双流模型相对于单流模型的性能。在实验B中,我们不交换查询的特征向量query's feature vector。我们用两组修正的自我注意代替交叉注意replace the cross-attention with two sets of modified self-attention,并用与MECT相同的融合方法跟踪两个模块的输出。实验B的目的是验证MECT相对于无交叉的双流模型的有效性The purpose of experiment B is to verify the effectiveness of MECT relative to the twostream model without crossover.。此外,我们通过去除随机注意模块来评估所提出的MECT方法。

表8显示了烧蚀研究结果。1)通过将实验A的结果与实验B和MECT的结果进行比较,我们可以发现双流模型工作得更好。使用格级和根级特征作为模型的两个流,有助于模型更好地理解和提取汉字的语义特征。2)基于实验B和MECT的结果,我们可以看到,通过交换两个查询特征向量,该模型可以在格层和根层更有效地提取特征。他们有不同的注意机制来获取上下文信息,从而产生全局和局部注意交互作用。最后,通过删除随机注意模块(最后一行),MECT在所有数据集上的性能都会下降。这表明,作为一种注意偏向,随机注意可以消除由不同嵌入引起的差异,从而进一步提高模型的性能。

6 Conclusion

本文提出了一种新的适用于中文NER的双流网络MECT。该方法使用多元数据嵌入 multi-metadata embedding,通过交叉变换网络融合部首、字符和单词信息fuses the information of radicals, characters and words through a Cross-Transformer network。此外,随机注意力用于进一步提高性能。在四个基准测试上的实验结果表明,汉字的部首信息可以有效地提高汉字NER的性能。

提出的带有根流radical stream的MECT方法增加了模型的复杂性。在未来,我们将考虑如何在两个流或多流网络中更有效地整合汉字的字符、词和部首信息,以提高中文NER的性能,并将其扩展到其他NLP任务。

 

推荐阅读