首页 > 解决方案 > 如何减少验证 MAE?

问题描述

我有一个包含 300 列和目标变量的数据集。

|X_0_0|X_0_1|X_0_2|X_1_0|X_1_1|X_1_2|...|X_99_2|  y  |   
|:---:|:---:|:---:|:---:|:---:|:---:|...|:----:|:---:|
| 3.0 | 48.0| 1.04| 3.0 |78.0 | 1.14|...| 0.01 | 19.0|
| 0.0 | 5.0 |-1.0 | 0.0 | 4.0 |-1.00|...| 1.36 | 25.0|
| 1.0 | 49.0| 3.0 | 3.0 | 90.0| 0.61|...| 0.99 | 22.0|
| 0.0 | 3.0 |-1.0 | 3.0 |28.0 | 2.0 |...| 2.04 | 22.0|
| 3.0 | 0.0 | 1.7 | 0.0 | 5.0 |-1.00|...| 1.16 | 24.0|

我发现 X_i_0 仅采用以下值:

sub = train.loc[:,::3] 
for col in sub:
    print(sub[col].unique())

输出:

[3. 0. 1. 2.]
[3. 0. 1. 2.]
[1. 0. 2. 3.]
[0. 1. 2. 3.]
[1. 0. 2. 3.]
[0. 1. 3. 2.]
[3. 0. 1. 2.]
[0. 3. 1. 2.]
[2. 1. 0. 3.]
[3. 1. 0. 2.]
.............

我为 X_i_1 和 X_i_2 执行了相同的代码,它们具有更多独特的值。

我还可视化了目标率,似乎有 正态分布之类的东西

我决定尝试序列模型训练。我尝试过正则化、辍学、浅层和深层 NN,但我不能让 mae err 小于 4.5。

def create_model(factor, rate): # regularization and Dropout
    model = Sequential([
        Dense(32, kernel_regularizer=l2(factor),activation="relu", input_shape=(n_features,)),
        Dense(16,kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
        Dense(16, kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
        Dense(8, activation="relu", kernel_initializer='he_normal'),
        Dense(1)
    ])
    return model

通常的错误结果:测试曲线高于训练,过度拟合?

所以我想,我必须先预处理数据,我怎样才能改进数据或可能得分?

标签: pythonmachine-learningdeep-learning

解决方案


首先,您能否从标签中删除 keras,这是一个基本的机器/深度学习问题。

对于X_i_0 它似乎是一些对象的类别,其中每个数字都指一个特定的类别。

另一方面,Xi 数据的分布是模糊的,它可以使预测远离应有的状态,因此我强烈建议对您的数据进行标准化/标准化,您可以检查此Source和 this One 以更好地理解数据预处理

尝试在同一图中可视化训练和验证损失,以准确了解训练期间发生的情况。

这是一个应用逻辑回归的例子

情况1 :

在此处输入图像描述

解释:
典型的这些是 良好拟合模型的特征

  1. 训练损失和验证损失彼此接近,验证损失略大于训练损失。

  2. 最初减少训练和验证损失,直到最后的某个时间点后训练和验证损失相当平坦。

案例2:

在此处输入图像描述

解释 :

这是过拟合模型的学习曲线

  1. 训练损失和验证损失相距甚远。添加训练示例后逐渐减少验证损失(没有展平)。
  2. 非常低的训练损失,在添加训练示例后会略微增加。

案例3:

在此处输入图像描述

在此处输入图像描述

解释 :

欠拟合模型的学习曲线

  1. 在添加训练示例时增加训练损失。

  2. 训练损失和验证损失最后接近

  3. 最后训练损失和验证损失突然下降(并非总是如此)。

您可以查看数据科学以获取更多详细信息。

并将您的情节添加到问题中,以便更好地记录您的问题。


推荐阅读