python - 标准化或标准化分类值
问题描述
我对数据科学相当陌生(我正在使用 python),并且发现在我们更进一步之前对我们的数据进行标准化或规范化会更好。我的问题是:
- 如果存在男性或女性等分类值(二进制并使用一种热编码,0 或 1),我们是否需要对此类数据进行标准化或规范化?
- 如果分类数据是非二元的,例如,测量您的健康状况(1= 差,2= 非常健康,3= 健康,4= 适合,5= 非常适合),该怎么办。我们还需要对这些数据进行标准化或规范化吗?
解决方案
如果您有超过 2 个分类值,最好将它们转换为一种热编码。分类值不应具有数学关系。如果您无法解释分类数据之间的数学顺序(例如适合>健康?)您应该创建一个热向量并将其表示为特征:
Old Version New version
1th 2th 3th 4th 5th 6th
poor 1 0 0 0 0 0 1
quite 2 0 0 0 0 1 0
healthy 3 0 0 0 1 0 0
healthy 4 0 0 1 0 0 0
fit 5 0 1 0 0 0 0
very fit 6 1 0 0 0 0 0
基本上你有 6 个新特性,每一个都代表你的一个类别。
注意:不需要对二进制数据应用规范化或标准化,因为它已经在 [0,1] 中
推荐阅读
- android - 怎么修?“错误::找不到任何与 com.android.support:appcompat-v7:29.+ 匹配的版本。”
- matlab - 您如何使用 Matlab 与编译后的 Simulink 模型交互?
- module - 包括来自另一个不是 main.rs 或 lib.rs 的文件
- html - 用于数字标牌的 Chrome 中的 HTML5 视频自动播放
- c# - 用于 Web 请求的 C# 等效 Python 代码
- python - 不同数据框列中的 zip 列表元素
- javascript - 为什么mousemove返回未定义?
- javascript - 无法将字符串转换为数字
- python - pygame表面以荒谬的方式旋转
- laravel - Laravel - 多态中两个部分名称的约定是什么?