python - 在哪里可以找到要添加到 spark-submit 中的 .py 文件
问题描述
我在一个edgenode上工作,其中一些库,如pandas、sqlalchemy,我手动安装了这些库,因为代理太受限制了。
我正在尝试将这些库添加到我的 spark 作业中以将其部署在未安装这些库的集群上,我知道我必须添加一些参数才能这样做
spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py
但我不知道我必须在命令行上放置哪些“filesToAdd”,是库源代码吗?它是它的特定部分吗?是别的吗?
解决方案
您不能使用 --py-files 添加库。所有像pandas
,sqlalchemy
和其他的库都应该安装在每个集群节点上。
--py-files
参数应该用于在集群上分发您的应用程序代码。有关更多详细信息,请参阅https://spark.apache.org/docs/latest/submitting-applications.html
推荐阅读
- c++ - Printing Integer Contents of a Vector as a String are Leading to Segmentation Fault
- lotus - 如何在 Lotus Notes 中创建一个按钮以查看收件箱中的最新电子邮件?
- maven - How to find a detailed document about what is Liberty Maven Plugin?
- akka.net - 无法在 Akka.Net 集群中创建节点级本地参与者
- reactjs - Redux-Observable - Cancel next request if it has same parameters with current one, but let it run when they are different
- excel - VBA: moving values over to another sheet based off of Vlookup results
- python - 彩虹色功能
- applescript - 如何使用 AppleScript 在 Safari 中打开新链接?
- r - r - arrange values in column based on unique values in another column within a group
- ruby-on-rails - 如何避免对 has_many 的 N+1 查询:通过关联