首页 > 解决方案 > 有没有更快的方法从 pyspark/python 中的 s3 读取数据

问题描述

我的数据在 s3 中分区为 mnt/.../year=xxx/month=mm/day=dd。当我尝试在 pyspark 中使用 .read() 读取与一个月相对应的数据时,需要花费很多时间。有没有比仅仅执行 .read() 更好的方法来读取数据。文件格式是 avro。

标签: pythonperformanceamazon-s3pysparkdatabricks

解决方案


推荐阅读