dask - 如何在不使用 hdfs 的情况下在每个工作人员上并行计算 csv 文件存储?
问题描述
与 hadoop 上的本地数据相同的概念,但我不想使用 hdfs。
我有 3 个 dask-worker 。
我想计算一个大的 csv 文件名,例如 mydata.csv。
我将 mydata.csv 拆分为小文件(mydata_part_001.csv ... mydata_part_100.csv)并存储在每个工作人员的本地文件夹 /data 中,例如
worker-01 将 mydata_part_001.csv - mydata_part_030.csv 存储在本地文件夹 /data 中
worker-02 将 mydata_part_031.csv - mydata_part_060.csv 存储在本地文件夹 /data 中
worker-03 将 mydata_part_061.csv - mydata_part_100.csv 存储在本地文件夹 /data 中
如何对 mydata 使用 dask 计算?感谢。
解决方案
使用某种全局可访问的文件系统更为常见。HDFS 就是其中的一个示例,但也存在其他几个网络文件系统 (NFS)。我建议您研究这些,而不是自己以这种方式管理您的数据。
但是,如果您想以这种方式做事,那么您可能正在寻找 Dask 的工作资源,它允许您将特定任务定位到特定机器。
推荐阅读
- python - 删除 Anaconda 包失败(InvalidArchiveError)
- java - 在 android 的聊天应用程序中创建文本气泡的更好选择?
- symfony - Sylius 订单更新并发问题
- c# - 我如何知道我的串行通讯是否被 GC 关闭?
- amazon-web-services - 具有持久会话的 AWS IOT MQTT - 订阅失败
- .net-core - Entity Framework Core:如何返回可查询的
与“使用”? - html - 为不同的项目获得多个不同的评级以工作
- python - 如何复制 matplotlib 标准化功能 imshow
- java - 来自 Set.of(...) 的随机迭代顺序
- python - 迭代df列列表并用字典中的值替换现有键有效python