sas - 较大的 z 得分值
问题描述
我们正在研究大型电信数据集。当我们标准化数据时,我们得到了很大的 z 分数,它从 -0.xxx 到 300 或 400 不等!这些属性例如 min=0 和 Max 大约 4,000,000 是的,有些变量有异常值。我们会在不处理异常值的情况下获得良好的聚类结果吗?
具有 8 个集群的 proc fastclus 的结果导致分组集群(第七个有 1,600,000 个观察值),其中一个也有 1 个观察值。
我们的问题是什么?
解决方案
您的变量可能非常偏斜。
对这些变量使用 z 标准化是有问题的。您可能也应该研究 box-cox 转换。
推荐阅读
- javascript - 带有 Typescript 的 ReactJS 不接受具有属性的对象
- php - 如何从 url 获取变量以在查询中工作?PHP
- c# - 使用 System.IO 在 c# 中将文件转换为数组
- typo3 - 点击 Typo3 9 中的 Lightbox 而不是放大?
- intellij-idea - IntelliJ IDEA 更改折叠代码的预览长度
- c++ - 输入大小为 1 的字符串时出现分段错误
- ios - 使用 CoreText 从给定文本位置获取上一个 CTFrame 对象
- scala - 根据环境在 Spark/Scala 中读取/创建配置文件
- javascript - 具有大量数据集的 React 16.8.5 的性能问题
- amazon-web-services - 使用密钥和密钥的 AWS S3 副本