首页 > 技术文章 > 语言模型(总结)

liweikuan 2021-01-08 23:38 原文

主要总结的内容:n元语法的基本概念

 

 

 

训练语料:用于构建语言模型的文本。(对于n元语法模型,使用的训练语料的规模一般要有几百万个词)

            对于n>2的n元语法模型,条件概率中要考虑前面的n-1个词的概率。   

                                    (1-1)

 

   句子S中包含L个基元(“基元”可以是字、词、短语等,在这里是“词”),  句子S=W1*W2*W3****W, 其中表示词,约定为<BOS>,    取为<EOS>,     把称为的历史。   

 

用于估计概率的方法称为最大似然估计(maximum likelihood estimation, MLE)。

 

等式为:(1-2)

 

 

注意:求和表达式等于计算历史的数目,两种书写方式等同。

 若(1-2)式中,n=2即二元语法模型,用表示二元语法在给定文本中的出现次数,

 

(1-2)可写为:

 

 

 

 

 

  

   

 

推荐阅读