首页 > 解决方案 > AmazonS3Client递归GET请求问题

问题描述

我的 s3 存储桶有 2 级嵌套目录(1 级 ~6000 级目录,2 级 10-500 级目录)。问题是,当使用 spark 读取它时,例如new SQLContext(sc).read.parquet(path) ,由于列出文件时的大量调用,我从 s3 开始减速。

我在这里看到这篇文章正在处理该问题的补丁: Spark 列出所有叶节点,即使在分区数据中 ,这个问题也在这里: https ://issues.apache.org/jira/browse/HADOOP-13208

我想知道是否有人成功尝试过,因为我使用的是 Hadoop 2.9,但我仍然遇到这个问题。

Steve Loughran,如果你能回应它,我将非常感激。

标签: apache-sparkamazon-s3

解决方案


推荐阅读