pandas - 在 Pandas UDF 中运行多个模型时将 SKLearn 模型记录在同一文件夹中
问题描述
我正在尝试运行多个 XGBoost 模型并以实验的形式保存生成的模型。但是,当我在 pyspark 数据帧上调用 UDF 函数时,模型将保存在多个文件夹中。
似乎它们被随机分成更小的批次并存储。有没有办法确保所有模型都保存在同一个运行/文件夹中,以便我以后可以轻松地加载它们。
def classification_xgb(df):
#modeling code
mlflow.sklearn.log_model(xgb, model_name)
dat_m.groupBy("Product").applyInPandas(classification_xgb, schema).show(10000,False)
我有 100 多种产品需要为其创建模型并保存在同一个运行实例中。
解决方案
推荐阅读
- html - 将网页元素复制或导出为 html 文件......这有可能吗?
- variables - Terraform 默认地图值
- javascript - 使用javascript的登录界面
- session - 在 keycloak 中自定义用户会话数据
- node.js - Docker 构建错误:- npm ERR!超出最大调用堆栈大小
- stripe-payments - 在 webhook 触发器中更改 Stripe 示例电子邮件
- c# - 从网络框架应用程序使用托管标识连接到 Azure 应用程序配置
- node.js - Nestjs/微服务不创建可观察对象?
- windows - 有没有办法使用 ou 规范名称将 GPO 与 ou 联系起来?
- java - 在没有安装tomcat的情况下在localhost上运行war文件