首页 > 解决方案 > --py-files 如何在 pyspark 内部工作

问题描述

我是 pySpark 的新手。我在 spark-submit 命令中使用了如下所示的 --py-files 将所有文件复制到工作节点。

spark-submit --master yarn-client  --driver-memory 4g --py-files /home/valli/pyFiles.zip /home/valli/main.py

在日志中,我观察到它将 pyFiles.zip 存储在 .sparkStaging 目录中,如下所示。

hdfs://cdhstltest/user/valli/.sparkStaging/application_1550968677175_9659/pyFiles.zip

当我将上述文件复制到我的特定本地目录中时,它仍然显示为 zip 文件并且无法读取其中的文件。但是当我尝试找出当前文件目录时,它显示为 hdfs_directory/pyfiles.zip/module1.py 并能够执行 py 文件。据我所知 --py-files 会通过自动解压缩将 zip 文件夹中的所有 .py 文件复制到工作节点中。

谁能帮我理解屏幕后面发生了什么?

提前致谢。

标签: python-2.7apache-sparkpysparkspark-submit

解决方案


推荐阅读