kubernetes - 使用 Dask 在 Kubernetes 集群上工作时建议的工作流程是什么?
问题描述
我已经在 GCP 上使用 Kubernetes Engine 建立了一个 Kubernetes 集群,以使用 Dask 进行一些数据预处理和建模。我按照这些说明使用 Helm 安装了 Dask 。
现在,我看到有两个文件夹,work
并且examples
我能够执行example
文件夹中笔记本的内容,确认一切都按预期工作。
我现在的问题如下
- 在集群上工作时建议遵循哪些工作流程?我应该在下面创建一个新笔记本
work
并开始对我的数据预处理脚本进行原型设计吗? - 如何确保在升级 Helm 部署时不会删除我的工作?您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)?或者你会创建一个简单的虚拟机实例,在那里建立原型,然后在完整数据集上运行时将所有内容移动到集群中?
我是在云中的分布式环境中处理数据的新手,因此欢迎提出任何建议。
解决方案
在集群上工作时建议遵循哪些工作流程?
有许多工作流程适用于不同的组。没有单一的祝福工作流程。
我是否应该在工作中创建一个新笔记本并开始对我的数据预处理脚本进行原型设计?
当然,那会很好。
如何确保在升级 Helm 部署时不会删除我的工作?
您可以将数据保存到更永久的存储中,例如云存储或托管在其他地方的 git 存储库。
您是否会在每次升级时手动将它们移动到存储桶中(这似乎很乏味)?
是的,那会起作用(是的,确实如此)
或者你会创建一个简单的虚拟机实例,在那里建立原型,然后在完整数据集上运行时将所有内容移动到集群中?
是的,这也可以。
总之
Helm 图表包括一个 Jupyter 笔记本服务器,以方便和轻松测试,但它不能替代成熟的长期持久生产力套件。为此,您可能会考虑像 JupyterHub 之类的项目(它处理您上面列出的问题)或当今市场上众多面向企业的变体之一。与其中任何一个一起使用 Dask 会很容易。
推荐阅读
- javascript - reactjs中的低级API和高级API是什么
- php - knp-snappy-bundle 有私人服务
- python - 从 Windows 运行 behavior_main 时出错
- android - 如何为 Android SearchView 提示文本设置自定义字体?
- javascript - 未处理的拒绝 SequelizeDatabaseError:关系“用户”不存在
- javascript - 如何在 javascript 中更改或替换部分 URL 字符串?
- php - 在 PHP 中获取 Robinhood 选项数据
- pdf - 缩小pdf的ghostscript不再起作用
- python - 为什么情节时间序列中的某些数据点位于错误的日期箱中?
- python - 在 python 中合并两个数据框时遇到问题