首页 > 解决方案 > 使用相异矩阵和数据矩阵作为R中聚类输入的区别?

问题描述

我只是在使用聚类时为输入数据结构而苦苦挣扎。

假设我有这样的数据框并且所有变量都是连续变量,那么我想在上面实现 k-means/k-medoids。

df <- data.frame(age = c("20", "50", "35", "45"), 
                 height = c("160", "178", "152", "169"), 
                 weight = c("50", "80", "65", "57"))

在我看来,有两种方法可以实现集群,但我不确定哪一种性能更好,或者它们只是等效的?

  1. 缩放df并直接进行k-means。
  2. 首先计算相异矩阵,然后进行k-means。

我知道如果我的数据包含分类变量,我可以利用 Gower 距离首先计算相异矩阵并进行聚类,但我不确定当我的数据不包含任何分类变量时这是一种更好的聚类方法?

标签: rmachine-learningdata-structurescluster-analysisk-means

解决方案


推荐阅读