首页 > 解决方案 > 有什么方法可以使用 spark 从 s3 并行读取多个镶木地板路径?

问题描述

我的数据存储在不同路径下的 s3(镶木地板格式)中,我使用spark.read.parquet(pathes:_*)它是为了将所有路径读入一个数据帧。不幸的是,spark 顺序读取 parquet 元数据(路径后路径)而不是并行读取。在 spark 读取元数据后,数据本身会被并行读取。但是元数据部分超级慢,而且机器没有得到充分利用。

有什么方法可以使用 spark 从 s3 并行读取多个镶木地板路径?

我很高兴听到您对此的意见。

标签: apache-sparkhadoopamazon-s3parquet

解决方案


推荐阅读