首页 > 解决方案 > 标准化 X_train 和 Y_train

问题描述

我是该领域的初学者,目前正在研究基于 Facebook 广告的数据集。

目标变量是金额,范围在 10 到 200 之间,特征是频率(范围在 0.1 到 3.0 之间)和印象数(1000 到 30000)

在训练我的模型(线性回归)后,我的分数是 0.84MSE 是 490,我认为这个值是因为特征的行有这样的情况:(频率:1.432 和印象数:25412)

在将数据拆分为训练数据和测试数据后,我应用了标准化

没有标准化

**为了解决这个问题,我想应用标准化来消除我应用 fit_transform (X_train) 和 transform (X_test) 的值的高方差

但是分数一样的,MSE也是一样。

标准化后

我的怀疑很白痴,但我在这个领域工作就像是 ML 的新手

1)我注意到社区没有对目标变量(Y)应用标准化他们为什么这样做?

2)我在这里做错了吗?

感谢你们!

标签: machine-learningstandardization

解决方案


标准化通常应用于自变量,因此均值大约为零,标准标准为一。即数据被转换为标准正态分布。这样做的原因是它将自变量形式的比例标准化为 0 到 1。例如,如果变量 1 在 100 到 100 的比例范围内,而变量 2 在 0 到 1 的范围内,并且如果将它们沿着 x 绘制在一起-轴,您会在图中看到 vaibale2 接近于零,任何变量 2 的任何更改都可能不会影响目标值。

目标不应该标准化,因为如果模型应该预测会怎样。y=f(x) , y 是目标值。


推荐阅读