首页 > 解决方案 > 我可以使用 BERT 或 Doc2Vec 来比较可能不相关的单词列表吗?

问题描述

语境

我正在构建一个示例项目来匹配具有相似兴趣的用户。给定具有给定兴趣列表的任何两个用户,我想在这些用户之间创建一个相似度分数。似乎正确的方法是使用 NLP 将兴趣转换为向量,然后使用余弦相似度进行比较。

问题

我可以使用 BERT(例如:BERT as a service)或 Doc2Vec(例如:Gensim)为每个用户的兴趣列表创建一个向量吗?

例如: 的输入user_interests = ['python', 'photography', 'running']将产生一个代表所有用户兴趣的单个向量,然后可以使用余弦相似度将其与其他用户的向量进行比较。

我试图解决的一些关键点:

标签: nlpdata-sciencecosine-similaritybert-language-modeldoc2vec

解决方案


推荐阅读