python - fasttext 预训练句子相似度
问题描述
我想使用 fasttext 预训练模型来计算一组句子之间的句子相似度。谁能帮我?什么是最好的方法?
我通过训练一个 tfidf 模型来计算句子之间的相似度。写这样的代码。是否可以更改它并使用 fasttext 预训练模型?例如使用向量来训练 tfidf 模型?
def generate_tfidf_model(sentences):
print("generating TfIdf model")
texts = [[sentence for sentence in doc.split()] for doc in sentences]
dictionary = gensim.corpora.Dictionary(texts)
feature_cnt = len(dictionary.token2id)
mycorpus = [dictionary.doc2bow(doc, allow_update=True) for doc in texts]
tfidf_model = gensim.models.TfidfModel(mycorpus)
index = gensim.similarities.SparseMatrixSimilarity(tfidf_model[mycorpus]
, num_features = feature_cnt)
return tfidf_model, index, dictionary
def query_search(query, tfidf_model, index, dictionary):
query = normal_stemmer_sentence(query)
query_vector = dictionary.doc2bow(query.split())
similarity = index[tfidf_model[query_vector]]
return similarity
解决方案
如果您可以使用词嵌入,我认为计算 TfIdf 是不必要的。
一个简单但有效的方法包括:
使用您的语言的预训练词嵌入计算代表您的两个字符串的两个向量(例如 FastText - get_sentence_vector https://fasttext.cc/docs/en/python-module.html#model-object)
计算两个向量之间的余弦相似度(1:相等的字符串;0:真正不同的字符串;阅读https://masongallo.github.io/machine/learning,/python/2016/07/29/cosine-similarity.html)。
推荐阅读
- php - 不同的htaccess目录和子目录重定向
- c - 字符位图有一些标准吗?
- flutter - 我不明白 Flutter 中 Theme 类的意义
- javascript - 基于条件和对象值的对象的Javascript数组计数
- python - 从任务中引发忽略不会确认消息
- java - 检查 BigInteger 是否为完美正方形的复杂性
- android - 片段未与片段管理器关联。(对话片段)
- java - 我想写一个代码来回答一个无限系列,它有交替加减运算。我看不到错误,在我的代码中
- javascript - 使用正则表达式验证家庭地址
- python - Paramiko中ssh over ssh的保持活动机制