首页 > 解决方案 > 在哪里可以找到要添加到 spark-submit 中的 .py 文件

问题描述

我在一个edgenode上工作,其中一些库,如pandas、sqlalchemy,我手动安装了这些库,因为代理太受限制了。

我正在尝试将这些库添加到我的 spark 作业中以将其部署在未安装这些库的集群上,我知道我必须添加一些参数才能这样做

spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py

但我不知道我必须在命令行上放置哪些“filesToAdd”,是库源代码吗?它是它的特定部分吗?是别的吗?

标签: pythonapache-sparkpyspark

解决方案


您不能使用 --py-files 添加库。所有像pandas,sqlalchemy和其他的库都应该安装在每个集群节点上。

--py-files参数应该用于在集群上分发您的应用程序代码。有关更多详细信息,请参阅https://spark.apache.org/docs/latest/submitting-applications.html


推荐阅读