首页 > 解决方案 > 如何在不使用 hdfs 的情况下在每个工作人员上并行计算 csv 文件存储?

问题描述

与 hadoop 上的本地数据相同的概念,但我不想使用 hdfs。

我有 3 个 dask-worker 。

我想计算一个大的 csv 文件名,例如 mydata.csv。

我将 mydata.csv 拆分为小文件(mydata_part_001.csv ... mydata_part_100.csv)并存储在每个工作人员的本地文件夹 /data 中,例如

worker-01 将 mydata_part_001.csv - mydata_part_030.csv 存储在本地文件夹 /data 中

worker-02 将 mydata_part_031.csv - mydata_part_060.csv 存储在本地文件夹 /data 中

worker-03 将 mydata_part_061.csv - mydata_part_100.csv 存储在本地文件夹 /data 中

如何对 mydata 使用 dask 计算?感谢。

标签: daskdask-delayed

解决方案


使用某种全局可访问的文件系统更为常见。HDFS 就是其中的一个示例,但也存在其他几个网络文件系统 (NFS)。我建议您研究这些,而不是自己以这种方式管理您的数据。

但是,如果您想以这种方式做事,那么您可能正在寻找 Dask 的工作资源,它允许您将特定任务定位到特定机器。


推荐阅读