首页 > 解决方案 > 如何从 word2vec 的语料库中找到相似的句子?

问题描述

我已经使用 TensorFlow 教程在我的语料库上实现了 word2vec:https ://www.tensorflow.org/tutorials/text/word2vec#next_steps 现在我想给出一个句子作为输入,并希望在语料库中找到一个类似的句子.

关于我如何执行此操作的任何线索?

标签: nlpword2vecsentence-similarity

解决方案


一个简单的 word2vec 模型无法完成这样的任务,因为它只将单词语义相互关联,而不是整个句子的语义。本质上,这样的模型没有生成功能,它仅用作查找表。

Word2vec 模型将单词字符串映射到嵌入空间中的向量。要为给定的样本词找到相似的词,可以简单地遍历词汇表中的所有向量,并从样本词向量中找到最接近的(根据 2-范数)。如需更多信息,您可以前往此处此处

然而,这不适用于句子,因为它需要一个完整的句子词汇表来选择相似的句子——这是不可行的。

编辑:这似乎是这个问题的重复。


推荐阅读