首页 > 解决方案 > Pyspark 模型的 Python 等效项

问题描述

哪个模型是“GBTRegressor”Pyspark 模型的 python 等效模型?

简要背景:我正在尝试将 pyspark 模型重新创建为 python 模型。现有管道中使用的模型是 GBTRegressor。我想知道哪个模型是 python 的等效模型,以便我可以使用类似的参数并将模型部署在 python 上。

标签: pythonmachine-learningpyspark

解决方案


GBTRegressor 是用于回归的梯度提升树。如果你想在 python 中实现它们,你可以使用sklearn的 implementation。以下是对糖尿病数据集使用 GBT 回归的简单示例:

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, ensemble
from sklearn.inspection import permutation_importance
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# loading Data
diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, random_state=13)

params = {'n_estimators': 500,
          'max_depth': 4,
          'min_samples_split': 5,
          'learning_rate': 0.01,
          'loss': 'ls'}

# fitting model

reg = ensemble.GradientBoostingRegressor(**params)
reg.fit(X_train, y_train)

mse = mean_squared_error(y_test, reg.predict(X_test))
print("The mean squared error (MSE) on test set: {:.4f}".format(mse))

推荐阅读