python - 如何使用 Azure Databricks 活动在 Azure 数据工厂中执行 python Wheel 类/方法(不是脚本)?
问题描述
是否可以使用 Azure Databricks 活动在 Azure 数据工厂中执行 python Wheel 类/方法(不是脚本),就像它是 .jar 中的 java 打包方法一样?与脚本不同,这将能够返回一个值,而无需执行诸如掩埋标准输出之类的操作。
我无法搜索任何东西,我尝试使用 jar 活动但没有运气,这并不让我感到惊讶,但值得一试。
如果没有,我正在寻找的是一种使用 Azure Databricks 计算并从 python 作业返回一小组值的方法。我已经成功地将 ADF 活动用于 databricks python 脚本。
蒂亚!
解决方案
是的。将轮子添加为集群上的库。然后创建一个 .py 文件来导入库并调用您需要的方法。将 py 文件保存到 dbfs 卷上。
创建一个使用 python 任务的数据工厂管道并将其指向您的 py 文件。你也可以传入参数。
您也可以使用导入库的笔记本来执行此操作。
这篇博文(以及它所在的系列)应该对https://datathirst.net/blog/2019/9/20/building-pyspark-applications-as-a-wheel有所帮助
推荐阅读
- powershell - PowerShell 命令不通过 cmd 脚本运行
- python - 如何从日期时间中删除年份以在彼此之上绘制年份
- business-intelligence - QlikSense 脚本问题:我收到了一些不同状态的案例编号的多条记录,例如“进度”和“暂停”
- database - 使用过滤器中的值更新文档
- reactjs - 如何使用 typescript 扩展 react-bootstrap 组件?
- html - 在段落中使用列表后删除换行符
- javascript - 对象中的 JavaScript 位置属性访问
- excel-formula - 最小 3 个值的平均值导致 Err539
- google-bigquery - 在 google bigquery 中添加带条件的值
- r - Matlab函数转换为R