python - 在 Pandas UDF 中找不到用于多节点的模块
问题描述
我正在尝试在 jupyter notebook 中运行 pandas udf 函数,我想在其中导入我在这个 pandas udf 中编写的一些模块。代码可以在本地模式下运行。但是当我尝试在多节点中运行它时。它表明在其他执行程序中找不到该模型。
没有 pandas udf,我可以在多节点上导入模块。所以,我认为这是与 pandas udf 相关的一些问题。
以前有人有类似的问题吗?有什么解决办法吗?
以下是我在 Jupyter 笔记本中的代码:
from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
schema_return=spark_df.schema
@pandas_udf(schema_return, PandasUDFType.GROUPED_MAP)
def scoring_pudf(snap_df):
import numpy as np
import pandas as pd
import re
import pyarrow.parquet as pq
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import time
import config as conf
from econ import EconData
#initialize & read in configration file
config = conf.DevConfig()
#initialize & read in econ data
econ = EconData(config)
return econ
错误:
ModuleNotFoundError: No module named 'config'
解决方案
推荐阅读
- c++ - KITTI 数据集有多少地面实况误差?
- javascript - 添加图像以键入和删除效果
- vue.js - 如何创建 vuetify 图标滑动控制台
- ios - 使用 .netrc 文件安装 iOS 地图框
- python - pgsync.exc.ForeignKeyError:'“public.book”和“public.book_author”之间没有外键关系'
- java - java.lang.ClassNotFoundException:首先
- java - Spring Boot 服务方法返回接口页面
- java - 在 Spring Boot 中启动 servlet/控制器时加载
- azure-blob-storage - 是否支持使用 Terraform 在 Azure 上进行数据保护 - 存储帐户?
- vb.net - 如何使用 REST Api 从 Docusign 模板中取回文件?