python-2.7 - --py-files 如何在 pyspark 内部工作
问题描述
我是 pySpark 的新手。我在 spark-submit 命令中使用了如下所示的 --py-files 将所有文件复制到工作节点。
spark-submit --master yarn-client --driver-memory 4g --py-files /home/valli/pyFiles.zip /home/valli/main.py
在日志中,我观察到它将 pyFiles.zip 存储在 .sparkStaging 目录中,如下所示。
hdfs://cdhstltest/user/valli/.sparkStaging/application_1550968677175_9659/pyFiles.zip
当我将上述文件复制到我的特定本地目录中时,它仍然显示为 zip 文件并且无法读取其中的文件。但是当我尝试找出当前文件目录时,它显示为 hdfs_directory/pyfiles.zip/module1.py 并能够执行 py 文件。据我所知 --py-files 会通过自动解压缩将 zip 文件夹中的所有 .py 文件复制到工作节点中。
谁能帮我理解屏幕后面发生了什么?
提前致谢。
解决方案
推荐阅读
- mapbox - 如何更新地图框中的图层
- arrays - 如何将单元格数组分配给嵌套结构中的字段?
- vb6 - 如何使用按钮将数据从复选框值保存到数据库
- apache - 如何使用 Apache 代理转发 ttyd
- python - 在 pandas 中提取并组合街道地址和公寓号码
- reactjs - 如何通过更改 url 来阻止用户访问网页
- node.js - 如何在 AWS Lambda 中设置环境变量或使用即时客户端库
- javascript - 检查客户端浏览器是否为 en-US、en-EG、en-AU、en-GB、en-CA 然后显示英文文件?
- android - Android - 如何使用一些 URL 深度链接到应用程序,然后在不使用 WebView 的情况下打开相同的 URL 应用程序内本机浏览器?
- java - 如何编写在三种颜色之间进行选择以生成特定图像的条件语句