scala - Azure Databrics - 从 Gen2 DataLake 存储运行 Spark Jar
问题描述
我正在尝试从 Azure Databrics 运行 spark-submit。目前我可以创建一个作业,将 jar 上传到 Databrics 工作区中,然后运行它。
我的查询是:
有没有办法访问 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行 spark-submit?(因为工作区和 GEN2 存储之间的通信受到保护“fs.azure.account.key”)
有没有办法从databrics notebook 进行spark-submit?
解决方案
有没有办法访问 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行 spark-submit?(因为工作区和 GEN2 存储之间的通信受到保护“fs.azure.account.key”)不幸的是,您无法访问驻留在 Azure 存储上的 jar,例如 ADLS Gen2/Gen1 帐户。
注意: --jars、--py-files、--files 参数支持DBFS和S3路径。
通常,Jar 库存储在 dbfs:/FileStore/jars 下。
您需要在 dbfs 中上传库并在 jar 活动中作为参数传递。
有关更多详细信息,请参阅“通过在 Azure Databricks 中使用 ADF 运行 jar 活动来转换数据”。
有没有办法从数据块笔记本中进行火花提交?
要回答第二个问题,您可以参考以下职位类型:
参考:SparkSubmit和“创建工作”
希望这可以帮助。
如果这回答了您的问题,请单击“标记为答案”和“投票”。而且,如果您有任何进一步的疑问,请告诉我们。
推荐阅读
- swift - 字符串插值问题
- c++ - 限制可变参数模板类中的构造函数访问
- eclipse-rcp - 运行导出的基于 Xtend 的应用程序
- amazon-mws - 亚马逊 mws 产品称重并确认订单
- java - JSF h:commandlink 在更新版本后不起作用
- authentication - 没有从 JWT 令牌创建用户身份
- redis - Redis 截断大于 4087 字节的值
- javascript - TypeError:无法读取未定义的resolveModel react-redux-form的属性'0'
- spring-boot - Spring Boot 中的 JDBCTemplate 查询错误
- javascript - 使用 csv 文件从地址获取纬度和经度