python - 如何减少验证 MAE?
问题描述
我有一个包含 300 列和目标变量的数据集。
|X_0_0|X_0_1|X_0_2|X_1_0|X_1_1|X_1_2|...|X_99_2| y |
|:---:|:---:|:---:|:---:|:---:|:---:|...|:----:|:---:|
| 3.0 | 48.0| 1.04| 3.0 |78.0 | 1.14|...| 0.01 | 19.0|
| 0.0 | 5.0 |-1.0 | 0.0 | 4.0 |-1.00|...| 1.36 | 25.0|
| 1.0 | 49.0| 3.0 | 3.0 | 90.0| 0.61|...| 0.99 | 22.0|
| 0.0 | 3.0 |-1.0 | 3.0 |28.0 | 2.0 |...| 2.04 | 22.0|
| 3.0 | 0.0 | 1.7 | 0.0 | 5.0 |-1.00|...| 1.16 | 24.0|
我发现 X_i_0 仅采用以下值:
sub = train.loc[:,::3]
for col in sub:
print(sub[col].unique())
输出:
[3. 0. 1. 2.]
[3. 0. 1. 2.]
[1. 0. 2. 3.]
[0. 1. 2. 3.]
[1. 0. 2. 3.]
[0. 1. 3. 2.]
[3. 0. 1. 2.]
[0. 3. 1. 2.]
[2. 1. 0. 3.]
[3. 1. 0. 2.]
.............
我为 X_i_1 和 X_i_2 执行了相同的代码,它们具有更多独特的值。
我还可视化了目标率,似乎有 正态分布之类的东西
我决定尝试序列模型训练。我尝试过正则化、辍学、浅层和深层 NN,但我不能让 mae err 小于 4.5。
def create_model(factor, rate): # regularization and Dropout
model = Sequential([
Dense(32, kernel_regularizer=l2(factor),activation="relu", input_shape=(n_features,)),
Dense(16,kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
Dense(16, kernel_regularizer=l2(factor), activation="relu", kernel_initializer='he_normal'),
Dense(8, activation="relu", kernel_initializer='he_normal'),
Dense(1)
])
return model
通常的错误结果:测试曲线高于训练,过度拟合?
所以我想,我必须先预处理数据,我怎样才能改进数据或可能得分?
解决方案
首先,您能否从标签中删除 keras,这是一个基本的机器/深度学习问题。
对于X_i_0 它似乎是一些对象的类别,其中每个数字都指一个特定的类别。
另一方面,Xi 数据的分布是模糊的,它可以使预测远离应有的状态,因此我强烈建议对您的数据进行标准化/标准化,您可以检查此Source和 this One 以更好地理解数据预处理
尝试在同一图中可视化训练和验证损失,以准确了解训练期间发生的情况。
这是一个应用逻辑回归的例子
情况1 :
解释:
典型的这些是 良好拟合模型的特征
训练损失和验证损失彼此接近,验证损失略大于训练损失。
最初减少训练和验证损失,直到最后的某个时间点后训练和验证损失相当平坦。
案例2:
解释 :
这是过拟合模型的学习曲线
- 训练损失和验证损失相距甚远。添加训练示例后逐渐减少验证损失(没有展平)。
- 非常低的训练损失,在添加训练示例后会略微增加。
案例3:
解释 :
欠拟合模型的学习曲线
在添加训练示例时增加训练损失。
训练损失和验证损失最后接近。
最后训练损失和验证损失突然下降(并非总是如此)。
您可以查看数据科学以获取更多详细信息。
并将您的情节添加到问题中,以便更好地记录您的问题。
推荐阅读
- python-3.x - 视频尺寸优化
- php - PHP中有没有办法检测浏览器系统的配色方案
- ssl - 如何通过 HTTPS/SSL 运行 Svelte/Sapper 应用程序?
- java - 由于缺少工件 jdk.tools:jar,使用 maven 的 hadoop-common 构建失败
- django - 如何在 django 中将参数传递给基于类的视图?
- reactjs - 如何根据请求路由中的参数实现条件路由?
- c - 如何使用数组指针打印结构成员?
- google-cloud-storage - 是否可以通过 Digital Ocean Spaces(S3 兼容)每天使用 Google Cloud Storage 备份?
- wordpress - 带有 Timber/Twigg 模板的 WordPress 前端的 TinyMCE
- sql-server - 选择具有不同列值的不同 ID