首页 > 解决方案 > R中不同包的均值漂移聚类中的不同带宽规范

问题描述

我想在 R 中执行均值偏移聚类,发现至少有两个包具有此功能:MeanShiftmeanShiftR. 如此处所示,后者要快得多,并且当我尝试第一个并且执行聚类需要很长时间时,我热衷于选择meanShiftR. 但是meanShiftR::meanShift功能具有相当不常见的带宽规范方式,请参阅文档的一部分:

queryData 要由均值移位算法分类的点的矩阵或向量。值必须是有限且非缺失的。

带宽 长度等于 queryData 矩阵中的列数的向量,或者当 queryData 是向量时长度为 1。该值将用于最速上升分类的核密度估计。默认值为每个维度一个。

我不是均值漂移聚类方面的专家,但我在文献中发现的唯一带宽规范是带宽是标量或正定对称矩阵,而不是向量。那么这是表示带宽的技术技巧吗?每个维度的带宽值都必须相同吗?或者它可能会有所不同?

另一个问题是,即使在 meanShiftR 包中设置与 MeanShift::msClustering 中相同的带宽值,但只是复制以匹配列数,我得到了完全不同的结果,尤其是更大数量的集群。此外,这些模式非常相似,并不代表数据集。这让我想知道这个包是否工作正常。有人用过meanShiftR吗?如果是这样,也许您可​​以提供任何示例,因为文档对我来说不够清楚?

标签: rcluster-analysismean-shift

解决方案


这其实并没有什么不同。

每个查询点一个标量。


推荐阅读