首页 > 技术文章 > 词袋模型:词语统计方法的文本向量化

hisi-tech 2022-01-25 21:56 原文

原文:

       文本向量化表示——词袋模型 - 知乎 (zhihu.com)

 

通过阅读原文后,总结如下:

  词袋模型就是:

    对文本分词;

    对每个词语进行独热编码;

    统计词语出现的次数,加入到词语对应的维度上。

    最终得到的向量便是这个文本的向量。

 

  词袋模型的缺点:

    只用词语出现的频率来突出文本主题(或者说是代表文本),却忽略了词语之间语法和语序对文本意思的影响,这里举一个语序对文本意思带来的180度的影响的例子:

      文本一:

         我是你爸爸

      VS  

      文本二:

         你是我爸爸

      这两句话用词袋模型表示的向量是一样的,但是两句话的意思截然不同。

    

推荐阅读