machine-learning - 有什么方法可以理解 word2vec 的输出特征吗？

我想了解 word2vec 输出中每个维度的含义。

例如，如果我用一个热编码变量制作决策树，我可以准确判断分类变量中的哪个类别负责拆分。但是，如果我使用嵌入，我无法解释这些分裂的原因。

我知道 Embedding(King) - Embedding(Man) + Embedding(Woman) = Embedding(Queen) 的著名例子。从这个例子中，我们可以说已经理解了“版税”的特性。

我想一种方法是根据余弦相似度对相似的数据点进行聚类，以获取有关输出特征是什么的一些上下文。

例如，如果我得到一个数据点最近的 3 个邻居是“公里”、“英寸”和“英里”。我可以推断“长度”是决策树中分裂的原因。但是，我想知道是否有另一种方法。

标签： machine-learningword2vecword-embedding

首先，词嵌入大多以无监督的方式生成。因此，当它播种时，实际上可以找到不同的属性。事实上，一些 Word2Vec 运行可能永远不会获取版税或长度的属性。

此外，就其顺序而言，这些属性有些无意义。只要在同一个地方找到相同的属性，这一切都很重要。

基于此，Word Embeddings 从根本上需要进行调查，以将其项目与我们将其标记为的项目相关联。有趣的问题是，是否存在与我们的概念不相关但仍对词嵌入有用的项目。

您可能感兴趣的是语义本体以及它们如何关联不同的语义概念。