scala - Azure Databrics - 从 Gen2 DataLake 存储运行 Spark Jar

问题描述

我正在尝试从 Azure Databrics 运行 spark-submit。目前我可以创建一个作业，将 jar 上传到 Databrics 工作区中，然后运行它。

我的查询是：

有没有办法访问 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行 spark-submit？（因为工作区和 GEN2 存储之间的通信受到保护“fs.azure.account.key”）
有没有办法从databrics notebook 进行spark-submit？

标签： scalaazureapache-sparkazure-databricks

有没有办法访问 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行 spark-submit？（因为工作区和 GEN2 存储之间的通信受到保护“fs.azure.account.key”）不幸的是，您无法访问驻留在 Azure 存储上的 jar，例如 ADLS Gen2/Gen1 帐户。

注意： --jars、--py-files、--files 参数支持DBFS和S3路径。

通常，Jar 库存储在 dbfs:/FileStore/jars 下。

您需要在 dbfs 中上传库并在 jar 活动中作为参数传递。

有关更多详细信息，请参阅“通过在 Azure Databricks 中使用 ADF 运行 jar 活动来转换数据”。

有没有办法从数据块笔记本中进行火花提交？

要回答第二个问题，您可以参考以下职位类型：

参考：SparkSubmit和“创建工作”

希望这可以帮助。

如果这回答了您的问题，请单击“标记为答案”和“投票”。而且，如果您有任何进一步的疑问，请告诉我们。

scala - Azure Databrics - 从 Gen2 DataLake 存储运行 Spark Jar

问题描述

解决方案

推荐阅读