首页 > 解决方案 > 标准化或标准化分类值

问题描述

我对数据科学相当陌生(我正在使用 python),并且发现在我们更进一步之前对我们的数据进行标准化或规范化会更好。我的问题是:

  1. 如果存在男性或女性等分类值(二进制并使用一种热编码,0 或 1),我们是否需要对此类数据进行标准化或规范化?
  2. 如果分类数据是非二元的,例如,测量您的健康状况(1= 差,2= 非常健康,3= 健康,4= 适合,5= 非常适合),该怎么办。我们还需要对这些数据进行标准化或规范化吗?

标签: pythondata-sciencenormalizestandardized

解决方案


如果您有超过 2 个分类值,最好将它们转换为一种热编码。分类值不应具有数学关系。如果您无法解释分类数据之间的数学顺序(例如适合>健康?)您应该创建一个热向量并将其表示为特征:

                 Old Version      New version
                              1th 2th  3th  4th  5th  6th
poor              1           0   0    0    0    0     1
quite             2           0   0    0    0    1     0
healthy           3           0   0    0    1    0     0
healthy           4           0   0    1    0    0     0
fit               5           0   1    0    0    0     0
very fit          6           1   0    0    0    0     0

基本上你有 6 个新特性,每一个都代表你的一个类别。

注意:不需要对二进制数据应用规范化或标准化,因为它已经在 [0,1] 中


推荐阅读