python - 如何减少验证 MAE？

问题描述

我有一个包含 300 列和目标变量的数据集。

|X_0_0|X_0_1|X_0_2|X_1_0|X_1_1|X_1_2|...|X_99_2|  y  |   
|:---:|:---:|:---:|:---:|:---:|:---:|...|:----:|:---:|
| 3.0 | 48.0| 1.04| 3.0 |78.0 | 1.14|...| 0.01 | 19.0|
| 0.0 | 5.0 |-1.0 | 0.0 | 4.0 |-1.00|...| 1.36 | 25.0|
| 1.0 | 49.0| 3.0 | 3.0 | 90.0| 0.61|...| 0.99 | 22.0|
| 0.0 | 3.0 |-1.0 | 3.0 |28.0 | 2.0 |...| 2.04 | 22.0|
| 3.0 | 0.0 | 1.7 | 0.0 | 5.0 |-1.00|...| 1.16 | 24.0|

我发现 X_i_0 仅采用以下值：

sub = train.loc[:,::3] 
for col in sub:
    print(sub[col].unique())

输出：

[3. 0. 1. 2.]
[3. 0. 1. 2.]
[1. 0. 2. 3.]
[0. 1. 2. 3.]
[1. 0. 2. 3.]
[0. 1. 3. 2.]
[3. 0. 1. 2.]
[0. 3. 1. 2.]
[2. 1. 0. 3.]
[3. 1. 0. 2.]
.............

我为 X_i_1 和 X_i_2 执行了相同的代码，它们具有更多独特的值。

我还可视化了目标率，似乎有正态分布之类的东西

我决定尝试序列模型训练。我尝试过正则化、辍学、浅层和深层 NN，但我不能让 mae err 小于 4.5。

def create_model(factor, rate): # regularization and Dropout
    model = Sequential([
        Dense(32, kernel_regularizer=l2(factor),activation="relu", input_shape=(n_features,)),
        Dense(16,kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
        Dense(16, kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
        Dense(8, activation="relu", kernel_initializer='he_normal'),
        Dense(1)
    ])
    return model

通常的错误结果：测试曲线高于训练，过度拟合？

所以我想，我必须先预处理数据，我怎样才能改进数据或可能得分？

标签： pythonmachine-learningdeep-learning