首页 > 解决方案 > 有什么方法可以理解 word2vec 的输出特征吗?

问题描述

我想了解 word2vec 输出中每个维度的含义。

例如,如果我用一个热编码变量制作决策树,我可以准确判断分类变量中的哪个类别负责拆分。但是,如果我使用嵌入,我无法解释这些分裂的原因。

我知道 Embedding(King) - Embedding(Man) + Embedding(Woman) = Embedding(Queen) 的著名例子。从这个例子中,我们可以说已经理解了“版税”的特性。

我想一种方法是根据余弦相似度对相似的数据点进行聚类,以获取有关输出特征是什么的一些上下文。

例如,如果我得到一个数据点最近的 3 个邻居是“公里”、“英寸”和“英里”。我可以推断“长度”是决策树中分裂的原因。但是,我想知道是否有另一种方法。

标签: machine-learningword2vecword-embedding

解决方案


首先,词嵌入大多以无监督的方式生成。因此,当它播种时,实际上可以找到不同的属性。事实上,一些 Word2Vec 运行可能永远不会获取版税或长度的属性。

此外,就其顺序而言,这些属性有些无意义。只要在同一个地方找到相同的属性,这一切都很重要。

基于此,Word Embeddings 从根本上需要进行调查,以将其项目与我们将其标记为的项目相关联。有趣的问题是,是否存在与我们的概念不相关但仍对词嵌入有用的项目。

您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。


推荐阅读