python - 使用 HDBSCAN 检索集群的成员
问题描述
所以我有一些字符串数据,我对其进行了一些操作,然后使用 HDBSCAN 创建了一个集群:
textData = train['eudexHash'].apply(lambda x: str(x))
clusterer = hdbscan.HDBSCAN(min_cluster_size=5,
gen_min_span_tree=True,
prediction_data=True).fit(textData.values.reshape(-1,1))
现在,当我调用集群以使用approximate_predict 进行预测时,我得到以下结果:
>>>> hdbscan.approximate_predict(clusterer, testCase)
(array([113]), array([1.]))
Sweet,看起来它在预测新案例,所以它认为新的字符串值对应于标签 [113]。现在,我如何找到该标签/存储桶/集群中的其他成员?
干杯!
解决方案
如果您想找出哪些训练数据属于标签 113,那么您可以这样做
textdata_with_label_113 = textData[clusterer.labels_ == 113]
推荐阅读
- outlook - 异步\后台方法执行 C#, Outlook VSTO 插件
- python - 使用 minidom 进行 XHTML 解析
- c++ - 为什么 std::move 适用于常量对象
- google-cloud-platform - 如何获取图像系列中未使用的图像列表
- cassandra - Cassandra中多个DC的自动故障转移?
- r - 将数据帧连接到 purrr::map_* 中的嵌套数据帧
- java - 在 Java 中调用多维数组的更好方法是什么?
- linux-kernel - 如何在内核模块中使用跟踪点
- javascript - React Router v4 没有在带有参数的路由中渲染组件
- ios - 'catch' 块无法访问