首页 > 解决方案 > Word2Vec 的功能是否相互独立?

问题描述

我是 NLP 的新手,正在学习 Word2Vec。所以我还没有完全理解 Word2Vec 的概念。

Word2Vec 的功能是否相互独立?

例如,假设有一个 100 维的 word2vec。那么这100个特征是相互独立的吗?换句话说,如果特征的“序列”被打乱了,那么word2vec的意义就改变了?

标签: nlpword2vectext-classificationword-embedding

解决方案


Word2vec 是一种“密集”嵌入:单个维度通常不能独立解释。只有“邻域”和“方向”(不限于 100 个正交轴维度)具有有用的含义。

因此,在统计意义上,它们并不是彼此“独立”的。但是,你可以丢弃任何维度——例如,所有 100 维向量的最后 50 个维度——你仍然有可用的词向量。所以从这个意义上说,它们仍然是独立有用的。

如果你改变了维度的顺序,对你的集合中的每个向量都采用相同的方式,那么你基本上只是类似地旋转/反射了所有向量。它们都有不同的坐标,它们的相对距离是相同的,如果“从词 A 向词 B”过去模糊地表示一些人类可以理解的方面,如“大”,那么即使在执行了你的排序之后-dimensions shuffle,“从单词 A 到单词 B”的含义相同,因为向量“thataway”(在转换后的坐标中)将与以前相同。


推荐阅读