首页 > 解决方案 > 转换为 TFIDF 值向量的相似文档如何在向量空间中查看

问题描述

这可能是一个奇怪的问题,但我忍不住想知道。如果我说有三个文件:

如果我将所有这 3 个文档转换为TFIDF有值向量,在向量空间中,文档d1和文档d2之间是否会更接近d2d3例如文档?抱歉,如果这是一个愚蠢的问题,但我真的很想以某种方式将其可视化以便更好地理解它。先感谢您!

标签: vectormachine-learningscikit-learntf-idf

解决方案


是的,他们会更接近。

演示:

In [21]: from sklearn.feature_extraction.text import TfidfVectorizer

In [22]: from sklearn.metrics.pairwise import cosine_similarity

In [23]: tfidf = TfidfVectorizer(max_features=50000, use_idf=True, ngram_range=(1,3))

In [24]: r = tfidf.fit_transform(data)

In [25]: s = cosine_similarity(r)

In [26]: s
Out[26]:
array([[1.        , 0.53634991, 0.        ],
       [0.53634991, 1.        , 0.        ],
       [0.        , 0.        , 1.        ]])

In [27]: data
Out[27]: ['My name is Stefan.', 'My name is David.', 'Hello, how are you?']

推荐阅读