scikit-learn - HDBSCAN 集群选择
问题描述
根据我的数据,我一直在使用HDBSCAN
并拥有数百个集群。我正在尝试选择一些集群组进行进一步分析。寻找具有高集群间距离的集群,因为它比集群的其他部分更分散并且表现得有点离群。到目前为止,我正在使用 ( -1
) 集群类别,但意识到cluster.probabilities_
这些集群是0
. 我需要这个值进行进一步分析。
我的问题是:
cluster.probabilities_
score 对集群有什么影响?- 有没有什么办法(除了选择
-1
集群类别)我可以选择其他一些可能存在异常值的集群?就像计算集群间距离或其他方式一样?
解决方案
cluster.probabilities_
表示给定数据点属于该集群的概率-1 表示该数据点已被标记为噪声。如果您希望为它们分配软集群可能是一种解决方案
推荐阅读
- kotlin - 位置 - 数组/列表作为可选参数的问题
- python - Matplotlib 线图未指示标签
- angular - ASP.Net Core:从没有尾部斜杠的子文件夹访问 IIS 上的应用程序解析为文档
- python - 按组将函数应用于 Pandas 数据帧中的每一行
- python - (python)函数如何处理参数?
- java - JScrollPane 不在构造函数中显示提供的组件
- arrays - 替换 ArraySlice 中的值
- java - 属性的默认值(如果不存在)
- outlook - Outlook 文件扩展名关联
- java - 错误:当一切似乎都正确时,找不到带有 Javac 的符号