python - 读取大量 parquet 文件:read_parquet vs from_delayed
问题描述
我正在将大量(100 到 1000)的镶木地板文件读入单个 dask 数据帧(单台机器,所有本地)。我意识到
files = ['file1.parq', 'file2.parq', ...]
ddf = dd.read_parquet(files, engine='fastparquet')
ddf.groupby(['col_A', 'col_B']).value.sum().compute()
效率远低于
from dask import delayed
from fastparquet import ParquetFile
@delayed
def load_chunk(pth):
return ParquetFile(pth).to_pandas()
ddf = dd.from_delayed([load_chunk(f) for f in files])
ddf.groupby(['col_A', 'col_B']).value.sum().compute()
对于我的特定应用程序,第二种方法 ( from_delayed
) 需要 6 秒才能完成,第一种方法需要 39 秒。在这种dd.read_parquet
情况下,在工人开始做某事之前似乎有很多开销,并且有相当多的transfer-...
操作分散在任务流图中。我想了解这里发生了什么。read_parquet
这种方法慢得多的原因可能是什么?它与仅读取文件并将它们分成块有什么不同?
解决方案
您正在体验客户端尝试建立数据列的最小/最大统计信息,从而为数据帧建立良好的索引。索引对于防止读取特定工作不需要的数据文件非常有用。
在许多情况下,这是一个好主意,因为文件中的数据量很大而文件的总数很小。在其他情况下,相同的信息可能包含在特殊的“_metadata”文件中,因此无需先读取所有文件。
为了防止扫描文件的页脚,您应该调用
dd.read_parquet(..,. gather_statistics=False)
这应该是 dask 下一版本中的默认设置。
推荐阅读
- c# - 为什么 IEnumerable
ToString() 在 xamarin android 中工作? - python - Sqlalchemy:查询由字符串命名的字段的不同值
- c# - 清空剃须刀页面,检查cmment中是否存在文章编号
- ruby-on-rails - 自定义 Rails ActionText Trix 编辑器的默认值
- java - Java多线程中的停止线程
- mysql - sqlalchemy,从 id 创造价值
- javascript - 如何使用按钮在 iframe ( youtube ) 中切换视频静音?
- javascript - 如何在 React 中“展平”嵌套对象数组?
- ios - 如何在 2021 年从 Windows 调试(devtools)iOS 上的网站?
- r - 无法对列重新排序 (fct_reorder())