nlp - Word2Vec 的功能是否相互独立？

问题描述

我是 NLP 的新手，正在学习 Word2Vec。所以我还没有完全理解 Word2Vec 的概念。

Word2Vec 的功能是否相互独立？

例如，假设有一个 100 维的 word2vec。那么这100个特征是相互独立的吗？换句话说，如果特征的“序列”被打乱了，那么word2vec的意义就改变了？

标签： nlpword2vectext-classificationword-embedding

Word2vec 是一种“密集”嵌入：单个维度通常不能独立解释。只有“邻域”和“方向”（不限于 100 个正交轴维度）具有有用的含义。

因此，在统计意义上，它们并不是彼此“独立”的。但是，你可以丢弃任何维度——例如，所有 100 维向量的最后 50 个维度——你仍然有可用的词向量。所以从这个意义上说，它们仍然是独立有用的。

如果你改变了维度的顺序，对你的集合中的每个向量都采用相同的方式，那么你基本上只是类似地旋转/反射了所有向量。它们都有不同的坐标，但它们的相对距离是相同的，如果“从词 A 向词 B”过去模糊地表示一些人类可以理解的方面，如“大”，那么即使在执行了你的排序之后-dimensions shuffle，“从单词 A 到单词 B”的含义相同，因为向量“thataway”（在转换后的坐标中）将与以前相同。

nlp - Word2Vec 的功能是否相互独立？

问题描述

解决方案

推荐阅读