首页 > 解决方案 > 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?

问题描述

我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群,以使用 Dask 进行一些数据预处理和建模。我按照这些说明使用 Helm 安装了 Dask 。

现在,我看到有两个文件夹,work并且examples

在此处输入图像描述

我能够执行example文件夹中笔记本的内容,确认一切都按预期工作。

我现在的问题如下

我是在云中的分布式环境中处理数据的新手,因此欢迎提出任何建议。

标签: kubernetesdask

解决方案


在集群上工作时建议遵循哪些工作流程?

有许多工作流程适用于不同的组。没有单一的祝福工作流程。

我是否应该在工作中创建一个新笔记本并开始对我的数据预处理脚本进行原型设计?

当然,那会很好。

如何确保在升级 Helm 部署时不会删除我的工作?

您可以将数据保存到更永久的存储中,例如云存储或托管在其他地方的 git 存储库。

您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)?

是的,那会起作用(是的,确实如此)

或者你会创建一个简单的虚拟机实例,在那里建立原型,然后在完整数据集上运行时将所有内容移动到集群中?

是的,这也可以。

总之

Helm 图表包括一个 Jupyter 笔记本服务器,以方便和轻松测试,但它不能替代成熟的长期持久生产力套件。为此,您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。


推荐阅读