首页 > 解决方案 > 在 Pandas UDF 中运行多个模型时将 SKLearn 模型记录在同一文件夹中

问题描述

我正在尝试运行多个 XGBoost 模型并以实验的形式保存生成的模型。但是,当我在 pyspark 数据帧上调用 UDF 函数时,模型将保存在多个文件夹中。

似乎它们被随机分成更小的批次并存储。有没有办法确保所有模型都保存在同一个运行/文件夹中,以便我以后可以轻松地加载它们。

def classification_xgb(df):
  #modeling code
  mlflow.sklearn.log_model(xgb, model_name)


dat_m.groupBy("Product").applyInPandas(classification_xgb, schema).show(10000,False)

我有 100 多种产品需要为其创建模型并保存在同一个运行实例中。

标签: pandaspysparkazure-databrickssklearn-pandasmlflow

解决方案


推荐阅读