kubernetes - 在 Azure Kubernetes 服务 (AKS) 中处理 Dask Kubernetes 上的大数据
问题描述
我想对笔记本电脑硬盘中的 8gb 数据集(如 csv 文件)进行分析。我已经在 AKS 上设置了一个 dask kubernetes 集群,其中有 1 个调度程序和 3 个工作程序,每个 7 GB。
如何在 AKS 上使用这个 dask kubernetes 集群处理我的数据集?哪个文件系统在工作人员之间共享数据集最适合此目的?
任何我应该在哪里存储这个数据集的建议,以便我可以轻松地处理这个数据集。
该方法应该适用于 jupyter notebook 和 python 文件。
解决方案
您可能希望将数据上传到 Azure Blob 存储。这里有更多关于 dask 远程数据(包括 Azure)的信息:
推荐阅读
- sql-server - 从 SQL TEXT 列中递归删除行
- laravel - 我想选择我被选中的标签?(拉拉维尔)
- angular - Angular - 初始化并从 DOM 中获取值
- delphi - VirtualStringTree - 如何从绝对索引中获取节点?
- html - 谷歌地图:信息窗口
- typescript - TypeScript将简单对象解析为类
- javascript - 无法读取未定义的属性“会话” - 管理会话 Cookie Firebase 身份验证生成的 cookie
- regex - 无法使 SSIS 正则表达式(正则表达式)工作(来自 kingswaysoft 的高级派生列组件)
- python - 如何在 Python 中有效地保存/加载稀疏列表的字典?
- c++ - 我是否会导致如此多的内存泄漏,以至于我的计算机变得无响应?