scala - AWS EMR 添加步骤:如何在 --jars 和 --driver-class-path 选项中从 s3 添加多个 jar?
问题描述
所以我试图Apache Spark
在 AWS EMR 上cluster
使用spark-submit
. 如果我在类路径中只提供一个 jar,则使用--jar
and选项可以很好地使用给定的--driver-class-path
选项。根据 EMR 的要求,我所需的所有依赖项 jar 都位于S3
存储桶中。为此,我在 EMR AWS 控制台上的 EMR 添加步骤选项中使用了以下命令:
--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
现在,我spark-submit options
在add step
. 但是如果我想使用相同的方式提供多个依赖的jar,它不会占用其他jar。我提供以下方式并尝试了各种选项,但找不到依赖的 jar:
--jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher
解决方案
您可以在 spark-defaults 中添加 jar 文件。如果 jars 列表中有多个条目,请使用 : 作为分隔符。
你应该使用:
--driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar:s3://emrb/gson-2.8.4.jar
推荐阅读
- java - JDK 17 外存 API 引发异常 - 方法引发“java.lang.UnsatisfiedLinkError”异常
- javascript - 尽管使用 200 个响应代码获取静态文件,但 Django 并未设置页面样式
- typescript - 如何使用 VS Code 扩展 API 动态突出显示变量名?
- visual-studio - 如何从 Dacpac for Azure Pipeline CI/CD 中自动排除仅开发表?
- r - 如何将 for 循环中生成的数据组合成一个散点图?
- ssms - Microsoft SQL Server 管理工作室
- html - 如何为 emscripten 制作无边框的 HTML 画布
- openshift - ECS 与 AppDynamics 的集成问题
- jpa - java.lang.RuntimeException:无法从 PreparedStatement 获取 OracleSpatial Connection 对象
- php - Nginx - wordpress fpm - 在存储在 wp-content/uploads 中的图像上获取 404(到 EFS 的符号链接)