首页 > 解决方案 > 聚类前的标准化

问题描述

如果我们有使用假人和标签编码将分类数据转换为数值的分类数据,是否必须在聚类之前对数据进行规范化?如果是,那么在这种情况下使用哪种归一化技术最合适?

标签: pythoncluster-analysisnormalizationk-meanscategorical-data

解决方案


无需对分类值的数据进行标准化。对特征进行规范化/标准化以使所有特征达到相似的规模。

如果您使用 k 最近的邻居,它只会查看样本之间的相似性,因此在这种情况下,更大/更小的关系不会影响它。

最后,标准化/标准化不会影响值的顺序。因此,如果 x1 大于 x2,则在归一化或标准化之后,它们都可能具有不同的值,但它们之间的关系不会改变。

如需澄清,请参阅答案: https ://stats.stackexchange.com/questions/399430/does-categorical-variable-need-normalization-standardization


推荐阅读