首页 > 解决方案 > HDBSCAN 集群选择

问题描述

根据我的数据,我一直在使用HDBSCAN并拥有数百个集群。我正在尝试选择一些集群组进行进一步分析。寻找具有高集群间距离的集群,因为它比集群的其他部分更分散并且表现得有点离群。到目前为止,我正在使用 ( -1) 集群类别,但意识到cluster.probabilities_这些集群是0. 我需要这个值进行进一步分析。

我的问题是

  1. cluster.probabilities_score 对集群有什么影响?
  2. 有没有什么办法(除了选择-1集群类别)我可以选择其他一些可能存在异常值的集群?就像计算集群间距离或其他方式一样?

标签: scikit-learncluster-analysisunsupervised-learninghdbscan

解决方案


  1. cluster.probabilities_表示给定数据点属于该集群的概率

  2. -1 表示该数据点已被标记为噪声。如果您希望为它们分配软集群可能是一种解决方案


推荐阅读