python - 在 GridSearch CV 之后进行预测时是否遵循管道步骤
问题描述
我将 GridSearchCV 与包含标准化作为第一步的管道结合使用。我发现当使用 GridSearchCV 的 .predict 方法预测测试数据集时,结果与手动实现管道步骤时的结果不同。我在下面创建了我的脚本的简化版本,以显示发现的错误不同。为简单起见,搜索空间每个参数仅包含 1 个值。
我知道这里的差异非常小。但是在我的原始代码中,这种差异要大得多。因此,我试图了解导致两种方法之间差异的原因
初始化数据
import random
import numpy as np
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
random.seed(5)
np.random.seed(5)
x_train = np.random.rand(1000,4)
y_train = np.random.rand(1000,1)
x_test = np.random.rand(100,4)
y_test = np.random.rand(100,1)
C_space = 1
epsilon_space = 0.04
gamma_space = 0.001
实现管道
cv_folds = KFold(n_splits=5, shuffle=True)
steps = [
('scaler', StandardScaler()),
('svr', SVR(kernel='rbf', gamma=gamma_space, C=C_space, epsilon=epsilon_space))
]
pipe = Pipeline(steps, verbose=0)
search_space = [{
'svr__gamma':[gamma_space],
'svr__C':[C_space],
'svr__epsilon':[epsilon_space]
}]
mod = GridSearchCV(pipe, search_space,
scoring='neg_mean_absolute_error', cv=5, verbose=0, return_train_score=True, refit=True)
svr = mod.fit(x_train, y_train)
y_pred = svr.predict(x_test)
error = mean_absolute_error(y_pred, y_test)
手动实施这些步骤
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.fit_transform(x_test)
manual_svr = SVR(kernel='rbf', gamma=gamma_space, C=C_space,
epsilon=epsilon_space).fit(x_train_scaled, y_train)
y_pred_manual = manual_svr.predict(x_test_scaled)
error_manual = mean_absolute_error(y_pred_manual, y_test)
结果是:
Pipeline error is: 0.23495746730222067
Manual error is: 0.23487379770774958
解决方案
您正在将StandardScaler
内部拟合GridSearchCV
到训练数据,而您正在将“手册”重新scaler
拟合到测试数据。和
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.fit_transform(x_test)
您正在覆盖对训练数据的scaler
拟合!
这不是使用缩放器的目的。使定标器适合训练数据,然后使用此定标器标准化您的测试数据。
让我们将您的输出与它的外观进行比较。首先让我们提取适合的缩放器GridSearchCV
并用它标准化测试数据:
gscv_sclr = mod.best_estimator_.named_steps['scaler']
gscv_test_scld = gscv_sclr.transform(x_test)
如您所见,这不等于您手动标准化的测试数据:
np.allclose(gscv_test_scld, x_test_scaled)
# Out: False
现在让我们只用训练数据拟合“手动”标准化器,并使用这个标准化器来转换你的测试数据:
scaler_new = StandardScaler()
x_train_scaled = scaler_new.fit_transform(x_train)
x_test_scaled_new = scaler_new.transform(x_test)
# and compare it to the gridsearchcv scaler:
np.allclose(gscv_test_scld, x_test_scaled_new)
# Out: True
哪个是平等的!
现在使用这个正确标准化的测试集进行预测:
# this refitting is actually not needed. it is simply here for having separate models...
manual_svr_new = SVR(kernel='rbf', gamma=gamma_space, C=C_space,
epsilon=epsilon_space).fit(x_train_scaled, y_train)
y_pred_manual_new = manual_svr_new.predict(x_test_scaled_new)
error_manual_new = mean_absolute_error(y_pred_manual_new, y_test)
# And test it:
error_manual_new == error
# Out: True
现在您已经获得了管道的结果。
推荐阅读
- html - 无法使具有固定高度和宽度的背景图像的 div 响应
- java - NoClassDefFoundError: org/hibernate/service/ServiceRegistry
- java - selenium/browsermob addheader 不工作 (2.1.5)
- javascript - 使用 jQuery 创建 HTML 链接
- java - 如何启用 Saxon xpath 表达式缓存?
- javascript - d3js v5 + Topojson v3 在点击图例上显示/隐藏元素
- javascript - 下划线过滤多维对象
- websocket - Redis vs dynamoDb 地理定位跟踪
- excel - EXCEL VBA Specialcells 读取行
- react-native - React native Expo TypeError:网络请求失败