首页 > 解决方案 > 词嵌入到词

问题描述

我正在使用基于 GloVe 的预训练嵌入向量将我的 I/P 句子中的单词转换为类似 NMT 的模型。然后,该模型生成一系列词嵌入作为每个句子的输出。

如何将这些输出词嵌入转换为相应的词?我尝试的一种方法是在每个输出嵌入向量和所有 i/p 嵌入向量之间使用余弦相似度。还有比这更好的方法吗?

另外,有没有比使用嵌入向量更好的方法来解决这个问题?

标签: neural-networknlpkerasword-embedding

解决方案


首先,这个问题缺乏很多细节,比如用于词嵌入的库、模型的性质和训练数据等……但我会试着让你知道在这些情况下你可以做什么,假设您正在使用像Gensim这样的词嵌入库。

How to get the word from the vector : 我们在这里处理的是预测的词向量,所以我们的词向量可能不是原始词的精确向量,我们必须使用相似度,在 Gensim 中你可以使用similar_by_vector,类似

target_word_candidates = similar_by_vector(target_word_vector,top=3)

这将解决反向查找问题,正如这里强调的那样,给定所有词向量如何获得最相似的词,但我们需要根据上下文找到最好的单个词。

您可以在输出目标词向量上使用某种后处理,这将有利于尝试解决一些问题,例如:

1.如何指导词外术语的翻译?

2.如何强制在解码器的输出中存在给定的翻译推荐?

3.如何将这些词放在正确的位置?

其中一个想法是使用目标语言的外部资源,即语言模型,来预测将使用哪些单词组合。其他一些技术将外部知识纳入翻译网络本身


推荐阅读