首页 > 技术文章 > Spark Submit的一些注意事项

yangxusun9 2020-08-25 14:17 原文

脚本示例

spark-submit --master yarn \
--packages org.yang.component:common:1.2.3-SNAPSHOT,com.cloudera.impala.jdbc:ImpalaJDBC41:2.5.41 \
--repositories https://nexus.yang.cn/repository/maven-public/ \
--deploy-mode cluster \
--class org.resourcesubmit.spark.app.RSKafkaToHive \
--num-executors 1 \
--executor-memory 1G \
--executor-cores 2 \
--driver-memory 512m \
--conf yarn.nodemanager.resource.memory-mb=512 \
--conf yarn.scheduler.maximum-allocation-mb=1024 \
--conf spark.executor.memoryOverhead=1024 \
--conf spark.core.connection.ack.wait.timeout=500 \
--conf mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
oss://jars/sensor/ResourceSubmitETL-1.0-SNAPSHOT-jar-with-dependencies.jar 参数1 参数2

 

注意点

1. -- conf 这种参数配置形式 ‘=’前后不能有空格

2.声明jar 包 一定要放在最后,之后只能跟 要传入的参数,其他的全部失效

3.当jar包引用了maven私服中的依赖时,需要指明maven仓库地址和packages, packages这个参数是要传你引用了哪些个包,否则就会报ClassNotFoundException

参数配置参考

附上参考链接 https://www.cnblogs.com/weiweifeng/p/8073553.html

推荐阅读