首页 > 解决方案 > 如何使用 Azure Databricks 活动在 Azure 数据工厂中执行 python Wheel 类/方法(不是脚本)?

问题描述

是否可以使用 Azure Databricks 活动在 Azure 数据工厂中执行 python Wheel 类/方法(不是脚本),就像它是 .jar 中的 java 打包方法一样?与脚本不同,这将能够返回一个值,而无需执行诸如掩埋标准输出之类的操作。

我无法搜索任何东西,我尝试使用 jar 活动但没有运气,这并不让我感到惊讶,但值得一试。

如果没有,我正在寻找的是一种使用 Azure Databricks 计算并从 python 作业返回一小组值的方法。我已经成功地将 ADF 活动用于 databricks python 脚本。

蒂亚!

标签: pythoninteropazure-data-factoryazure-databrickspython-wheel

解决方案


是的。将轮子添加为集群上的库。然后创建一个 .py 文件来导入库并调用您需要的方法。将 py 文件保存到 dbfs 卷上。

创建一个使用 python 任务的数据工厂管道并将其指向您的 py 文件。你也可以传入参数。

您也可以使用导入库的笔记本来执行此操作。

这篇博文(以及它所在的系列)应该对https://datathirst.net/blog/2019/9/20/building-pyspark-applications-as-a-wheel有所帮助


推荐阅读