首页 > 解决方案 > 机器学习模型的部署 - 数据版本控制

问题描述

假设我们在 Microsoft Azure 上托管的存储库的主分支上有一个发布管道。当在此分支上完成拉取请求时,会自动构建一个工件。单击工件时,我们可以看到一个窗口“出处”,其中显示了用于发布工件的代码的确切提交(见下图)。 在此处输入图像描述

现在假设一个人工制品不仅使用代码,还使用一些大量数据。这是使用训练代码和训练数据创建的机器学习模型的情况。我希望能够将两者的版本链接到一个人工制品(机器学习模型),理想情况下,它是在 master 上的 PR 之后自动创建的。

目前,我手动上传工件,所以我不仅缺少用于生成 ML 模型的数据的标识符,而且还缺少代码的提交 ID。

Azure 上是否有办法自动生成(重)人工制品?有没有办法跟踪代码的 id用于产生人工制品的数据?我想我需要一个数据版本控制系统+一个存储。这些是 Azure 提供的吗?

标签: machine-learningdeploymentazure-devops

解决方案


Azure 上是否有办法自动生成(重)人工制品?有没有办法跟踪代码的 id 和用于产生人工制品的数据?我想我需要一个数据版本控制系统+一个存储。这些是 Azure 提供的吗?

如果我理解正确,您可以尝试使用通用包将这些 json 文件打包为工件。

作为测试,我们可以使用通用包任务来创建和发布工件:

在此处输入图像描述

构建完成后,我们可以在我们的提要中获得工件:

在此处输入图像描述

您可以查看此文档在 Azure Pipelines 中发布和下载通用包以及使用 Azure DevOps Artifacts发布和下载通用包以了解一些详细信息。


推荐阅读