gensim - 如何衡量 Doc2vec 模型的准确性?
问题描述
我有不同酒店的评论数据集。我正在尝试使用酒店评论找出类似的酒店。所以,我正在使用一种Doc2vec
算法来实现这一点。
有没有办法使用 来衡量Doc2Vec
模型的准确性,而不是使用 的函数来Gensim
评估结果?most_similar()
Gensim
解决方案
由于Doc2Vec
(又名“段落向量”算法)是一种无监督方法,因此没有严格的正确或错误结果 - 只是经过训练的模型对于某些下游任务来说更好或更差。
您个人如何根据自己的想法确定结果是否对您的项目有价值?
您必须将其中的一些判断纳入可重复的过程中——例如,一种方法可能是手工制作一组酒店列表,根据您的专业人类判断,这些酒店“应该更相似”,而不是其他人,或者可能在彼此的“前 N”个最接近的结果中。然后Doc2Vec
根据该理想对模型进行评分,与其他方法(或多次交替参数化运行Doc2Vec
)相比。
您也许可以从现有数据源中引导一些“应该更相似”的对。例如,也许同一连锁店中的两家酒店“应该更相似”,而不是随机的第三家酒店。(因此,他们的品牌名称的外部数据将指导您的评估,理想情况下,如果您确定品牌名称没有泄漏到用于训练模型的文档文本中。)或者也许,两家酒店在地理上和在价格方面,彼此之间“应该更相似”而不是随机的三分之一。
但是对于所有可能的文档和项目目标的域上的这种模糊表示,没有标准/自动的“准确性”概念。您需要开发自己的自定义评估,以便能够在算法之间进行选择,或调整算法。
推荐阅读
- python - 操作 Pandas 数据框的数据
- c# - 解释这种类型的演员?
- javascript - Spring Boot WebSocket 连接到“ws://127.0.0.1:8081/getUsersList/”失败:WebSocket 握手期间出错:意外响应代码:200
- python-3.x - 神经网络适用于 XOR,但不适用于 MNIST 数据集
- amazon-web-services - 如何将 aws ec2 windows 机器与已安装的应用程序捆绑在一起
- tensorflow - Tensorflow:向 LSTM 添加前馈
- angular - Angular i18n AOT 编译 - 使用 nginx 的 CI 部署与使用 ng serve 的本地开发
- javascript - 如何检查产品是否已经在购物车中
- c++ - 如何以多态方式使用替代类型的 std::variant
- firebase - Flutter:如何在firebase中删除特定的数组数据