首页 > 解决方案 > 如何从 Dask 数据框中选择 n 个等距的行?

问题描述

我有许多镶木地板文件,其中所有块都太大而无法放入内存。我想将它们加载到一个 dask 数据框中,计算一些结果(cumsum),然后将 cumsum 显示为一个图。出于这个原因,我想从 cumsum 行中选择等距的数据子集(一些 k 行),然后绘制这个子集。我该怎么做?

标签: pythonbigdatadask

解决方案


你可以试试:

slices = 10  # or whatever
slice_point = int(df.shape[0]/slices)

for i in range(slices):
    current_sliced_df = df.loc[i*slice_point:(i+1)*slice_point]

对当前切片做任何你想做的事


推荐阅读