首页 > 解决方案 > 如何测量单词共现频率

问题描述

单词共同出现的频率是如何定义的?

是两个词一起出现的次数/语料库中的文档总数吗

或者

两个词一起出现的次数/(第一个词出现的次数+第二个词出现的次数)?

标签: nlp

解决方案


“GloVe 模型在全局词-词共现矩阵的非零条目上进行训练,该矩阵将单词在给定语料库中相互共现的频率制成表格。” - 来自https://nlp.stanford.edu/projects/glove/(GloVe出版商)。我假设您指的是 GloVe 模型使用的共现。数学上: https ://towardsdatascience.com/emnlp-what-is-glove-part-ii-9e5ad227ee0 你有 P(i|j) = Xij/Xi w/ Xij = 共现次数,Xi = 次数任何单词出现在单词 i 的上下文中的次数。注意 Xi = Sum_k Xik 其中 k 是每个单词。


推荐阅读