首页 > 解决方案 > 在 PythonScriptStep 中使用 Dask 集群

问题描述

是否可以使用多节点 Dask 集群作为PythonScriptStepAML 管道的计算?

我们有一个PythonScriptStep使用featuretools's 的深度特征合成 ( dfs) ( docs )。ft.dfs()有一个参数,n_jobs它允许并行化。当我们在单台机器上运行时,这项工作需要三个小时,而在 Dask 上运行速度要快得多。如何在 Azure ML 管道中实现这一点?

标签: daskazure-machine-learning-service

解决方案


我们一直在努力,最近发布了一个dask_cloudprovider.AzureMLCluster您可能感兴趣的内容:repo 链接。您可以通过pip install dask-cloudprovider.

如果您需要,AzureML 服务上的AzureMLCluster实例化 Dask 集群具有扩展到 100 个节点的弹性。唯一需要的参数是Workspace对象,但您可以选择传递自己的参数ComputeTarget

您可以在此处找到如何使用它的示例。在此示例中,我使用自定义 GPU/RAPIDS docker 映像,但您可以使用Environment类中的任何映像。


推荐阅读