首页 > 技术文章 > 《机器翻译 统计建模与深度学习方法》 __肖桐 学习第六天 【词法及统计建模 基础】

xiaonezhaya 2020-08-11 20:27 原文

1、建模

  语言模型的目的是描述文字序列出现的规律,这个对问题建模的过程被称作是语言建模;

  

 

   n-gram只和它前面的n-1个词相关,根据这n-1生成第n个词;

  

 

   n-gram在分词、文本生成、信息检索、摘要等NLP任务中都有着举足轻重的地位,包括与训练模型本质上也是统计语言模型;

  强调:统计语言模型为解决NLP问题提供了非常好的思路,即:将整个序列生成的问题转化为逐个生成单词的问题;

2、未登录词

  未出现在过语料中的词。为解决未登录词引起的零概率问题,通常对模型进行平滑处理,即给出可能情况一个非零的概率。“劫富济贫”,即从高概率的部分分配一部分到概率,从而达到平滑的目的。

  平滑算法:

  (1)加法平滑方法:即给词出现的次数加上一个固定数;优点:简单;

  (2)古德-图灵估计法:(没学会)

  (3)Kneser-Ney平滑方法:(没学会)

 

推荐阅读