首页 > 解决方案 > 为二进制向量的数据帧计算相似度矩阵的最佳方法是什么?

问题描述

我有一个大小为 mxn 的二进制向量的数据框,其中包含一些未填充的值,例如下面的示例

col1 col2 col3 col4 col5
 V0    1         0    1
 V1    1    1         0
 V2    0    1    0    1
 V3         0    0

我想在这个数据帧上计算一个相似度矩阵,这样我就可以得到任意 2 个向量之间的相似度分数。

做这个的最好方式是什么?

注意:我尝试用 2 替换 NULL 值,并在数据帧上应用 scipy 库中的余弦相似度。结果矩阵不准确/不正确。

标签: pythonbinarysimilaritycosine-similarity

解决方案


您可能希望将pdistcdist与二元距离函数(例如 dice、jaccard 或 hamming)一起使用(请参阅本页末尾的这些函数列表)。


推荐阅读