首页 > 技术文章 > 中英命名实体识别及对齐中的中文分词优化 论文笔记

wzc440302 2019-03-03 19:24 原文

论文名和编号

摘要/引言

相关背景和工作

论文方法/模型

实验(数据集)及

分析(一些具体数据)

未来工作/不足

是否有源码

问题

原因

解决思路

优势

 

 

 

 

 

中英命名实体识别及对齐中的中文分词优化

编号:0372-2112(2015)08-1481-07

1.命名实体识别是自然语言处理的一项重要工作,对于跨语言的自然语言处理应用,除了命名实体识别,命名实体的翻译对于提升机器翻译质量、跨语言信息检索效果等也有着重要作用。由于命名实体更新较快,大多数命名实体都属于词典的未登录词,这为命名实体识别和翻译带来了困难。

1.

1.基于双语平行语料进行命名实体的识别和翻译。

2.对于双语命名实体词汇进行置信度评估,根据置信度高的实体对齐,对命名实体相关的分词错误进行修正从而提高命名实体识别的效果,调整命名实体词汇的分词粒度,优化双语命名实体对齐,提高双语命名实体翻译抽取的效果,进而提高统计机器翻译质量。

1.通过利用实体词汇的对其信息修正命名实体识别结果,再根据实体对齐结果调整分词粒度、修正错误分词。分词优化后使得双语命名实体尽可能多地一一对应,进而提高了中英命名实体翻译抽取和统计机器翻译地效果。

1.通过双语词对齐信息可以修正命名实体识别的错误。

2.双语命名实体对齐的方法主要由两种:在双语实体识别的基础上利用对齐模型寻找两者的对齐关系;仅在一种语言中识别命名实体,再利用融合多特征的对齐模型,在另一个语言中寻找它们对应的翻译。

第二种方法可以减少双语命名实体识别错误的影响,但是会丢失另一种语言中有用的命名实体信息。

3.Chen等提出了一种双语命名实体识别和对齐进行交互的模型,利用双语对齐信息对识别结果和对齐结果进行修正,不仅提高了实体对齐的效果,也有效提高了实体识别的正确率和召回率。然而,这个模型并没有修正中文分词对命名实体识别和对齐的影响。

1.计算命名实体词汇对齐的置信度:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别。

2.分词工具:采用中科院分词工具ICTCLAS、Stanford分词工具对中文句子进行分词,其中Stanford分词工具分别采用基于(Chinese Treebank,CTB)和(Peking university,PKU)两种数据集上训练的模型。

3. 命名实体识别工具:对于上述的三种中文分词结果,均采用Stanford命名实体识别工具(分类器:chinese.misc.distsim.crf.ser)进行初始中文命名实体识别。英文句子采用Stanford命名实体识别工具(分类器:english.conll.4class.distsim.crf.ser)进行英文命名实体识别。

4.对齐置信度的评估方法:对一个中英双语句对,中文在初始分词的基础上进行命名实体识别,再再最大熵模型的基础上,根据中英命名实体翻译的一些特点加入多个特征函数进行对齐置信度的计算。(其中包含了4个特征:音译特征、意译特征、字对齐特征、同现特征)

5.音译特征:通过将汉字转换为拼音,首先判断英文单词是否为中文汉字拼音字符串的字串或者完全一致,如果不符合则只计算普通话拼音字符串与英文单词的相似度。由于音译过程中再使源语言与目标语言发音接近的基础上,还会根据目标语言的发音习惯调整音译单元。切分是在英文单词音节划分的基础上,根据中文音译习惯进行基于音节首字母匹配的调整。(具体对齐概率采用IBM Model 1再中英音译语料库中训练得到)

6.意译特征:利用GIZA++工具产生的IBM Model 1、Model 4以及HMM三个模型的双向词汇翻译概率来计算意译特征。

7.字对齐特征:将中英平行语料中的中文句子按字切开,利用IBM Model 1 可以计算得到中文汉字和英文单词的翻译概率。

8.共现特征:如果中文命名实体和英文命名实体再整个语料中总是再平行句对中出现,那么这两个词汇在一定程度上就有互译的可能性。其值可以用中英实体词汇再同一平行句对出现的次数除以中文实体词汇再语料库中出现的次数再加上同一平行句对出现的次数除以英文实体词汇再语料库中出现的次数计算。

1.中英命名实体短语翻译抽取实验:如表1,在不同的初始中文分词结果基础上,优化算法都使得双语实体短语的抽取结果有了提高。具体分析来看,优化算法对于采用音译翻译方式的命名实体有比较明显效果,而对英文简称相关的双语短语翻译在准确率上不是特别理想,因为简称相关的词汇对齐置信度不高,优化算法的前提时初始命名实体对齐有较高的置信度。

2.中英统计机器翻译实验:如表2,仅仅对命名实体边界进行修正对提升BLEU值的作用不明显,而在修正命名实体边界的基础上,进一步修正粉刺错误和优化分词粒度可以提升BLEU值。但是由于分词优化算法仅针对命名实体词汇进行,BLEU的提升幅度较小。(其中baseline为grow-diag-final启发式规则将GIZA++获得的3种词对齐结果:IBM Model 1、IBM Model 4 和HMM加入命名实体对齐置信度评估得到的词对齐结果;boundary为在baseline基础上采用类似chen等提出的方法,以英文实体词汇为参照,在中文实体词汇前后采用滑动窗口的方法,根据对齐信息,只修正中文实体识别的边界,不对分词结果进行修正得到的词对齐结果;final时在baseline的基础上采用论文的优化方法得到的词对齐结果)

1.考虑如何修正错误的命名实体类型标记,进一步提高双语命名实体识别效果。

2.考虑如何利用双语对齐信息优化命名实体以外的词汇分词效果,进一步提高双语词对齐效果。

无 

 

推荐阅读