首页 > 解决方案 > 为什么standardscaler和normalizer需要不同的数据输入?

问题描述

我正在尝试以下代码,发现它StandardScaler(or MinMaxScaler)Normalizer处理sklearn数据的方式非常不同。这个问题使管道建设更加困难。我想知道这种设计差异是否是故意的。

from sklearn.preprocessing import StandardScaler, Normalizer, MinMaxScaler

对于Normalizer,数据被“水平”读取。

Normalizer(norm = 'max').fit_transform([[ 1., 1.,  2., 10],
                                        [ 2.,  0.,  0., 100],
                                        [ 0.,  -1., -1., 1000]])
#array([[ 0.1  ,  0.1  ,  0.2  ,  1.   ],
#       [ 0.02 ,  0.   ,  0.   ,  1.   ],
#       [ 0.   , -0.001, -0.001,  1.   ]])

对于StandardScalerMinMaxScaler,数据被“垂直”读取。

StandardScaler().fit_transform([[ 1., 1.,  2., 10],
                                [ 2.,  0.,  0., 100],
                                [ 0.,  -1., -1., 1000]])
#array([[ 0.        ,  1.22474487,  1.33630621, -0.80538727],
#       [ 1.22474487,  0.        , -0.26726124, -0.60404045],
#       [-1.22474487, -1.22474487, -1.06904497,  1.40942772]])

MinMaxScaler().fit_transform([[ 1., 1.,  2., 10],
                              [ 2.,  0.,  0., 100],
                              [ 0.,  -1., -1., 1000]])
#array([[0.5       , 1.        , 1.        , 0.        ],
#       [1.        , 0.5       , 0.33333333, 0.09090909],
#       [0.        , 0.        , 0.        , 1.        ]])

标签: python-3.xscikit-learnnormalizationscaling

解决方案


这是预期的行为,因为StandardScalerNormalizer服务于不同的目的。作品“StandardScaler垂直”,因为它...

通过去除均值和缩放到单位方差来标准化 [s] 特征

[...] 通过计算训练集中样本的相关统计数据,居中和缩放在每个特征上独立发生。然后使用变换方法存储平均值和标准偏差以用于以后的数据。

Normalizer作品“水平”,因为它...

将[s] 个样本单独标准化为单位范数。

具有至少一个非零分量的每个样本(即数据矩阵的每一行)独立于其他样本重新缩放,以使其范数(l1 或 l2)等于 1。

请查看 scikit-learn 文档(上面的链接),以获得更多洞察力,这更好地满足您的目的。


推荐阅读