首页 > 解决方案 > 较大的 z 得分值

问题描述

我们正在研究大型电信数据集。当我们标准化数据时,我们得到了很大的 z 分数,它从 -0.xxx 到 300 或 400 不等!这些属性例如 min=0 和 Max 大约 4,000,000 是的,有些变量有异常值。我们会在不处理异常值的情况下获得良好的聚类结果吗?

具有 8 个集群的 proc fastclus 的结果导致分组集群(第七个有 1,600,000 个观察值),其中一个也有 1 个观察值。

我们的问题是什么?

https://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_created https://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_created

标签: sascluster-computingcluster-analysisk-means

解决方案


您的变量可能非常偏斜

对这些变量使用 z 标准化是有问题的。您可能也应该研究 box-cox 转换。


推荐阅读