首页 > 解决方案 > PySpark ImportError:尽管包含在 --pyfiles 中,但没有命名模块

问题描述

我正在尝试运行 PySpark 应用程序。火花提交命令看起来像这样。

spark-submit --py-files /some/location/data.py /path/to/the/main/file/etl.py

我的主文件(etl.py)导入 data.py 并使用 data.py 文件中的函数,代码如下所示。

    import data
    def main(args_dict):
        print(args_dict)
        df1 = data.get_df1(args_dict['df1name'])
        df1 = data.get_df2(args_dict['df1name'])
        ...
        ...
        ...

我在 --py-files 中传递 data.py 文件,但是当我运行 spark-submit 时,ImportError: No module named 'data' 我正在试图找出我在这里做错了什么。谢谢你。

标签: apache-sparkpyspark

解决方案


推荐阅读