首页 > 解决方案 > 使用延迟(DASK)读取大型 CSV 文件

问题描述

delayed用来读取许多大型 CSV 文件:

import pandas as pd

def function_1(x1, x2):         
    df_d1 = pd.read_csv(x1)
    # Some calculations on df_d1 using x2.
    return df_d1

def function_2(x3):         
    df_d2 = pd.read_csv(x3)
    return df_d2

def function_3(df_d1, df_d2):         
    # some calculations and merging data-sets (output is "merged_ds").
    return merged_ds

接下来,我使用一个循环来调用这些delayed函数。我有很多 CSV 文件,每个文件都超过 500MB。这是使用 DASK ( delayed) 完成我的任务的合适程序吗?

标签: pythonpandascsvdaskdask-delayed

解决方案


是的,请继续延迟您的功能并将它们提交给 Dask。最占用内存的可能是function_3,您可能需要考虑一次可以在内存中保存多少个 - 使用分布式调度程序来控制您拥有的工作程序和线程的数量以及它们各自的内存限制https:// /distributed.readthedocs.io/en/latest/local-cluster.html

最后,您肯定不想返回最终合并的数据帧,这肯定不适合内存:您可能意味着聚合它们或写出其他文件。


推荐阅读