python-3.x - 使用 pandas udf 创建 Pyspark 文件
问题描述
拥有两台服务器的 pyspark 集群 111.123.23.224(master), 111.123.34.234(worker) 在 pandas udf 函数中训练后尝试创建一个临时泡菜文件来存储我的模型。但是泡菜有时是在主服务器中创建的,有时是在工作服务器中创建的。我应该怎么做才能让我的pickle文件总是在master或worker中创建这是我正在尝试的以下代码
@pandas_udf(schema, functionType=pandasUDFType.GROUPED_MAP) def train_model(df_pandas):
model=NearestNeighbours(number_neighbours=5).fit(df_pandas)
file=open("/tmp/model.pkl", "wb")
pickle.dump(model, file)
file.close()
df.groupBY("id").apply(train_model)
但是上面的 model.pkl 文件有时在 111.123.23.224(master) 中创建,有时在 111.123.34.234(worker) 中创建。什么是解决方案,以便我的 model.pkl 文件将始终在 master 或 slave 中创建
解决方案
推荐阅读
- javascript - res.redirect() 输出到浏览器“找到。重定向到
" - java - Java 8:如何从列表中创建映射,其中键是从相同的类(empID)和值作为对象(雇员)本身获取的?
- php - 当用户从站点 A 导航到站点 B 时,我们如何将 woocommerce 购物车详细信息从一个站点发送到另一个站点
- reactjs - 如何将 HTML 输入绑定到 React 中的函数?
- python - 预期的单例错误“for”循环 - Odoo 服务器操作
- javascript - Opentok 的闭幕式
- c# - 音频环回流的 MediaFoundationResampler 总是读为 0 字节
- mysql - 如何从mysql过程中的表中获取新列?
- android - Android Exoplayer:getAudioComponent 为空
- python-3.x - PyTorch:用于训练和测试/验证的不同前向方法