首页 > 解决方案 > Word2vec 是泛化还是记忆算法?

问题描述

我需要知道 word2vec 是像所有 ML 算法一样的泛化算法还是像 KNN 这样的记忆算法?因为我们有两种基于模型和基于内存的算法,所以当 word2vec 用于 most_similar_items 时,它属于哪个类别

标签: machine-learningword2vecknn

解决方案


让我将泛化定义为已完成训练的模型在整个输入范围内有效预测的能力,包括不属于训练的输入。从这个角度来看,Word2Vec 无法预测不属于训练数据集的单词,因为它根本不会在其上下文上进行训练以创建嵌入。要成为一种泛化方法,它需要能够对不属于训练数据集的输入进行预测。

Word2Vec 模型维护对应嵌入/向量的单词字典。总之,无法预测未知单词。这是 fastText 模型和 Word2Vec 之间的重要区别之一。


推荐阅读