apache-spark - AmazonS3Client递归GET请求问题
问题描述
我的 s3 存储桶有 2 级嵌套目录(1 级 ~6000 级目录,2 级 10-500 级目录)。问题是,当使用 spark 读取它时,例如new SQLContext(sc).read.parquet(path)
,由于列出文件时的大量调用,我从 s3 开始减速。
我在这里看到这篇文章正在处理该问题的补丁: Spark 列出所有叶节点,即使在分区数据中 ,这个问题也在这里: https ://issues.apache.org/jira/browse/HADOOP-13208
我想知道是否有人成功尝试过,因为我使用的是 Hadoop 2.9,但我仍然遇到这个问题。
Steve Loughran,如果你能回应它,我将非常感激。
解决方案
推荐阅读
- python - 从 2D numpy 数组中删除特定行值数组的快速方法
- java - Mac JAVA 上不显示窗口
- r - 通过每次添加固定值来创建重复的值范围
- typescript - knexjs innerjoin 返回列
- c# - C# - 使用 GroupBy 的 LINQ Lambda 表达式 - 为什么嵌套验证效率如此低下?
- java - Fizz Buzz Cucumber Java
- python - 从两个熊猫数据帧(纬度和经度)映射最近的值
- python - 在 Python 中删除具有一定数量元素的列表
- csv - Netlogo:使用 .csv 作为栅格值的交叉引用
- mongodb - java - 如何根据java中的过滤器标准过滤对象列表?