tensorflow - “负采样”如何提高 word2vec 中的单词表示质量?
问题描述
' word2vec '中的负采样提高了训练速度,这很明显!
但是为什么 '使单词表示更加准确。'?
我没有找到相关的讨论或细节。你能帮我吗?
解决方案
如果没有其出现位置的完整背景,很难描述该声明的作者可能意味着什么。例如,词向量可以针对不同的任务进行优化,而使词向量对一项任务更好的相同选项可能会使它们对另一项任务更糟。
自 Google 最初的论文和代码发布以来,评估词向量的一种流行方法是一组词类比问题。这些给出了一个很好的可重复汇总“准确度”百分比,因此作者可能意味着对于特定的训练语料库,在该特定问题上,在其他条件保持不变的情况下,负采样模式具有更高的“准确度”分数。
但这并不意味着它总是更好,对于任何语料库,或对于任何其他下游的质量或准确性评估。
具有较大语料库的项目,尤其是较大的词汇表(更独特的词),往往更喜欢负采样模式。随着词汇量变大,hierarchical-softmax 替代模式变得更慢,而负采样模式则不会。
而且,拥有庞大、多样化的语料库,以及所有有趣词的许多细微不同的用法示例,是真正好的词向量的最重要贡献者。
因此,简单地通过在有限的训练时间内使更大的语料库变得可管理,负采样可以被视为间接地改进了词向量——因为语料库的大小是一个非常重要的因素。
推荐阅读
- python - 为什么没有定义问候功能以及如何更改代码
- javascript - 按属性过滤对象数组
- django - 当其他用户在帖子上标记他们时如何通知用户 - Django
- python - 计算熊猫数据框中的均值和标准差
- json - JMeter - 从有条件的响应中提取数据(JSON)
- typescript - 如何添加到包中的默认类型
- php - Azure Web App:如何增加部署过程的 PHP 内存限制?没有任何效果
- barcode-scanner - 向 USB 条码阅读器发送控制命令
- java - 无法从远程机器访问 H2 服务器
- indexing - 索引 1000 个 Pdf 文件并进行索引全文搜索