python - 为二进制向量的数据帧计算相似度矩阵的最佳方法是什么?
问题描述
我有一个大小为 mxn 的二进制向量的数据框,其中包含一些未填充的值,例如下面的示例
col1 col2 col3 col4 col5
V0 1 0 1
V1 1 1 0
V2 0 1 0 1
V3 0 0
我想在这个数据帧上计算一个相似度矩阵,这样我就可以得到任意 2 个向量之间的相似度分数。
做这个的最好方式是什么?
注意:我尝试用 2 替换 NULL 值,并在数据帧上应用 scipy 库中的余弦相似度。结果矩阵不准确/不正确。
解决方案
您可能希望将pdist或cdist与二元距离函数(例如 dice、jaccard 或 hamming)一起使用(请参阅本页末尾的这些函数列表)。
推荐阅读
- css - 如何找到 Leaflet 工具栏 buttonTitles 的 CSS 类?
- spring-boot - 在 Srping 启动控制器中编辑图像
- amazon-dynamodb - DynamoDB:过滤和排序相同的字段?
- python - 无法理解为什么“selenium.common.exceptions.ElementNotInteractableException:消息:元素不可交互”
- isabelle - 伊莎贝尔战术定义
- javascript - 未捕获的类型错误:无法设置 null javascript 的属性“src”
- aws-sdk - 尝试上传时发生 IllegalLocationConstraintException
- arrays - 在 React Native 中以文本形式呈现对象项
- python - 通过 Python/PyQt5 在 VLC 视频输出上显示文本
- python - 如何使用 pydoc 生成自己的代码文档?