首页 > 解决方案 > 计算word2vec模型的perplexity

问题描述

我在 500K 句子(大约 60K)单词上训练了 Gensim W2V 模型,我想计算困惑度。

  1. 最好的方法是什么?
  2. 对于 60K 字,我如何检查合适的数据量?

谢谢

标签: pythonnlpgensimword2veclanguage-model

解决方案


如果要计算困惑度,则必须首先检索损失。在gensim.models.word2vec.Word2Vec构造函数上,传递compute_loss=True参数 - 这样,gensim将在训练时为您存储损失。训练完成后,您可以调用该get_latest_training_loss()方法来检索损失。

由于skip-gram模型的交叉熵损失中的损失,损失的2次方会给你带来麻烦。(2**损失)


推荐阅读