首页 > 解决方案 > 如何衡量 Doc2vec 模型的准确性?

问题描述

我有不同酒店的评论数据集。我正在尝试使用酒店评论找出类似的酒店。所以,我正在使用一种Doc2vec算法来实现这一点。

有没有办法使用 来衡量Doc2Vec模型的准确性,而不是使用 的函数来Gensim评估结果?most_similar()Gensim

标签: gensimunsupervised-learningdoc2vec

解决方案


由于Doc2Vec(又名“段落向量”算法)是一种无监督方法,因此没有严格的正确或错误结果 - 只是经过训练的模型对于某些下游任务来说更好或更差。

您个人如何根据自己的想法确定结果是否对您的项目有价值?

您必须将其中的一些判断纳入可重复的过程中——例如,一种方法可能是手工制作一组酒店列表,根据您的专业人类判断,这些酒店“应该更相似”,而不是其他人,或者可能在彼此的“前 N”个最接近的结果中。然后Doc2Vec根据该理想对模型进行评分,与其他方法(或多次交替参数化运行Doc2Vec)相比。

您也许可以从现有数据源中引导一些“应该更相似”的对。例如,也许同一连锁店中的两家酒店“应该更相似”,而不是随机的第三家酒店。(因此,他们的品牌名称的外部数据将指导您的评估,理想情况下,如果您确定品牌名称没有泄漏到用于训练模型的文档文本中。)或者也许,两家酒店在地理上和在价格方面,彼此之间“应该更相似”而不是随机的三分之一。

但是对于所有可能的文档和项目目标的域上的这种模糊表示,没有标准/自动的“准确性”概念。您需要开发自己的自定义评估,以便能够在算法之间进行选择,或调整算法。


推荐阅读