apache-spark - 在 Kubernetes 上运行 Spark2.3,远程依赖 S3
问题描述
我正在运行spark-submit
Kubernetes (Spark 2.3)。我的问题是,InitContainer
如果它被指定为 s3a:// 路径,则不会下载我的 jar 文件,但如果我将我的 jar 放在 HTTP 服务器上并使用 http://,它确实可以工作。spark驱动程序失败了,当然,因为它找不到我的Class(实际上jar文件不在图像中)。
我尝试了两种方法:
- 指定 jar 的 s3a 路径作为 spark-submit 的参数和
- 用于
--jars
指定 jar 文件在 s3a 上的位置,但两者都以相同的方式失败。
编辑:另外,使用 local:///home/myuser/app.jar 不适用于相同的症状。
在运行失败(依赖于 s3a)时,我登录到容器并发现目录 /var/spark-data/spark-jars/ 为空。init-container 日志不指示任何类型的错误。
问题:
- 在 S3A 上指定远程依赖项的正确方法是什么?
- 还不支持 S3A 吗?只有http(s)?
- 关于如何进一步调试 InitContainer 以确定为什么没有发生下载的任何建议?
解决方案
推荐阅读
- php - 如何在 Google Compute Engine 上启用 PHP Zip 模块?
- web-scraping - 似乎无法访问元标记
- php - 通过 user_id 获得 Lighthouse GraphQL 数据所有权
- java - JTextField 的内部垂直对齐是否被 Java 11 破坏了?
- mysql - 检查表中mysql数据库中值的总出现次数是否为奇数
- python - 图的固定宽度
- android - 如何在 android Kotlin 中制作像素网格?
- php - 根据特定运输类别的购物车商品数量显示或隐藏运输方式
- django - 多对多关系查询在 post_save 信号上返回空查询集,但在 django shell 中不返回
- typescript - 将对象映射到接口等类属性