首页 > 解决方案 > “负采样”如何提高 word2vec 中的单词表示质量?

问题描述

' word2vec '中的负采样提高了训练速度,这很明显!

但是为什么 '使单词表示更加准确。'?

我没有找到相关的讨论或细节。你能帮我吗?

标签: tensorflownlpdeep-learningword2vecembedding

解决方案


如果没有其出现位置的完整背景,很难描述该声明的作者可能意味着什么。例如,词向量可以针对不同的任务进行优化,而使词向量对一项任务更好的相同选项可能会使它们对另一项任务更糟。

自 Google 最初的论文和代码发布以来,评估词向量的一种流行方法是一组词类比问题。这些给出了一个很好的可重复汇总“准确度”百分比,因此作者可能意味着对于特定的训练语料库,在该特定问题上,在其他条件保持不变的情况下,负采样模式具有更高的“准确度”分数。

但这并不意味着它总是更好,对于任何语料库,或对于任何其他下游的质量或准确性评估。

具有较大语料库的项目,尤其是较大的词汇表(更独特的词),往往更喜欢负采样模式。随着词汇量变大,hierarchical-softmax 替代模式变得更慢,而负采样模式则不会。

而且,拥有庞大、多样化的语料库,以及所有有趣词的许多细微不同的用法示例,是真正好的词向量的最重要贡献者。

因此,简单地通过在有限的训练时间内使更大的语料库变得可管理,负采样可以被视为间接地改进了词向量——因为语料库的大小是一个非常重要的因素。


推荐阅读