首页 > 解决方案 > Doc2Vec生成的文档向量会和Word2Vec得到的文档向量相似吗?

问题描述

我看到几篇博客文章说,文档向量不仅可以通过 Doc2Vec 生成,还可以通过对运行 Word2vec 算法获得的词向量进行平均来生成。在那种情况下,通过两种算法生成的向量是否相同?哪种方法是生成文档向量的最有效方法,为什么?

这方面的任何参考链接都会有很大帮助!

提前致谢

标签: nlpword2vecword-embeddingdoc2vec

解决方案


这是为一组词创建向量的两种不同方法。

这些向量将处于不同的位置,并且具有不同的质量。

平均速度非常快,特别是如果你已经有了词向量。但这是一种非常简单的方法,不会捕捉到许多不同的含义——实际上,它完全忽略了词序/相对接近度,平均化的行为可能会“抵消”文本中的对比含义。

Doc2Vec而是以与词向量非常相似的方式训练全文向量(通常与词向量一起)。本质上,分配给文本的假装词“浮动”在词向量训练旁边,就好像它“接近”所有其他词训练(对于那个文本)。这是一种稍微复杂的方法,但由于它对相同的数据使用非常相似的算法(和模型复杂性),因此许多下游评估的结果通常是相似的。

如语法规则和更高级的语言使用所暗示的,要获得捕获更微妙含义的摘要文本向量,可能需要更复杂的方法,例如使用更大深度网络的方法。

没有一种最有效的方法,因为所有实际用途在很大程度上取决于文本的类型、数量和质量,以及向量的预期用途。


推荐阅读