python - 计算word2vec模型的perplexity
问题描述
我在 500K 句子(大约 60K)单词上训练了 Gensim W2V 模型,我想计算困惑度。
- 最好的方法是什么?
- 对于 60K 字,我如何检查合适的数据量?
谢谢
解决方案
如果要计算困惑度,则必须首先检索损失。在gensim.models.word2vec.Word2Vec
构造函数上,传递compute_loss=True
参数 - 这样,gensim
将在训练时为您存储损失。训练完成后,您可以调用该get_latest_training_loss()
方法来检索损失。
由于skip-gram模型的交叉熵损失中的损失,损失的2次方会给你带来麻烦。(2**损失)
推荐阅读
- express - 如何减慢我的快速服务器响应以允许 react-admin getOne() 函数工作?
- php - Laravel 政策不断允许用户
- webhooks - 如何在结帐页面显示自定义运费
- ios - (Swift)告诉我无法查询项目的原因
- java - 警告:已解决 [org.springframework.web.HttpMediaTypeNotSupportedException:不支持内容类型“应用程序/json”]
- r - 无法从 Github 安装“Velocyto.R”
- python - Pandas:合并和比较数据框
- sql - 将列(字段)中的所有值(以英尺为单位)转换为数据集的度量
- reactjs - React:如何使用 Hooks 一次将所有状态传递给子组件?
- mysql - 有没有办法在 Laravel 6 中从 Postman(API) 上传多张图片