python - 哪种方式最好读取镶木地板文件以作为 dask 数据帧处理
问题描述
我有一个包含小镶木地板文件(600)的目录,我想在这些镶木地板上进行 ETL 并将这些镶木地板合并到每个文件 128mb。什么是处理数据的最佳方式。
我应该读取 parquet 目录中的每个文件并将 concat 作为单个数据框并执行 groupBY 吗?或者向 dd.read_parquet 提供 parquet 目录名称并进行处理?
我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像拟合。我想它也适用于这么多线程?这会导致内存错误。
哪种方式最好读取镶木地板文件以作为 dask 数据帧处理?逐个文件或提供整个目录??
解决方案
不幸的是,没有一种最佳方法可以在所有情况下读取 Parquet 文件。为了正确回答问题,您需要更多地了解您的情况。
推荐阅读
- linux - Git 使用 cronjob 拉取服务器
- c++ - c++:每次打印向量时如何打印向量元素的索引?
- javascript - 不要去下一个然后承诺,直到前一个完成
- split - 如何形成 Splunk 查询以根据最大分区数将字段拆分为单独的字段?
- arrays - 附加不同的维度数组
- php - 使用 Ajax 自动完成在 select2 上选择的选项
- jquery - 无法在 KendoUI 上的 Treeview 上进行选择
- postgresql - 如何使用 PostGIS 选择最近 X 位置的平均价格?
- php - 在 PHP 应用程序中使用 MySQL VIEWS 有什么好处?
- c++ - Unreal 需要 30 多分钟来编译代码