首页 > 解决方案 > word2vec评估结果解读

问题描述

我使用自己的数据集创建了词嵌入(Word2vec)。我使用 Gensim 模块来创建词嵌入。我想评估我的词嵌入。

我使用 Wordsim353 数据集来评估词嵌入。以下代码显示了评估的结果。

代码:

from gensim.test.utils import datapath

similarities = model.wv.evaluate_word_pairs(datapath('wordsim353.tsv'))

print(similarities)

结果:

((0.09410256722489568, 0.3086953732794174), SpearmanrResult(correlation=0.06101508426787973, pvalue=0.5097769955392246), 66.28895184135978)

我如何解释结果?

请帮我解释结果。

标签: word2vecevaluationword-embedding

解决方案


我们评估词嵌入质量的方法是查看嵌入计算的相似度与人类判断分配的实际相似度的匹配程度。

您的 Pearson 和 Spearmanr 的 pValue 过高,大约为 0.3 (70%) 和 0.5 (50%)。我建议您应该使用预训练的词嵌入或收集更多数据集。

我努力用 glove-twitter-25 进行评估,并获得了非常好的 pvalue。

import gensim.downloader as api
from gensim.test.utils import datapath

m = api.load("glove-twitter-25")
m.evaluate_word_pairs(datapath("wordsim353.tsv"))

输出:

((0.36409317297819943, pvalue=2.969053896450154e-12), SpearmanrResult(correlation=0.36452011505868487, pvalue=2.788781738485533e-12), 2.26628895184136)

evaluate_word_pairs - Gensim 模块


推荐阅读