nlp - 如何测量单词共现频率
问题描述
单词共同出现的频率是如何定义的?
是两个词一起出现的次数/语料库中的文档总数吗
或者
两个词一起出现的次数/(第一个词出现的次数+第二个词出现的次数)?
解决方案
“GloVe 模型在全局词-词共现矩阵的非零条目上进行训练,该矩阵将单词在给定语料库中相互共现的频率制成表格。” - 来自https://nlp.stanford.edu/projects/glove/(GloVe出版商)。我假设您指的是 GloVe 模型使用的共现。数学上: https ://towardsdatascience.com/emnlp-what-is-glove-part-ii-9e5ad227ee0 你有 P(i|j) = Xij/Xi w/ Xij = 共现次数,Xi = 次数任何单词出现在单词 i 的上下文中的次数。注意 Xi = Sum_k Xik 其中 k 是每个单词。
推荐阅读
- r - 循环遍历多列并使用 r 中的给定范围对每列进行栅格化
- c# - 将嵌套对象从 Blazor API 返回到 WASM
- python - 如何从终端运行 google Colab Notebook?
- python - 更改图像名称 - PermissionError: [WinError 32] 该进程无法访问该文件,因为它正被另一个进程使用:
- python - 我的情节是空白的,我没有得到任何错误?
- python - 此错误的问题: (-215:Assertion failed) !ssize.empty() in function 'cv::resize' OpenCV
- mongodb - 更改子文档猫鼬的多个对象中的特定字段
- java - gRPC 客户端在连接到 C# 服务器时出错
- javascript - 需要 Firefox 和 IE 的“localStorage”替代品
- pgadmin - 数据不会导入 PG Admin