apache-spark - 有什么方法可以使用 spark 从 s3 并行读取多个镶木地板路径?
问题描述
我的数据存储在不同路径下的 s3(镶木地板格式)中,我使用spark.read.parquet(pathes:_*)
它是为了将所有路径读入一个数据帧。不幸的是,spark 顺序读取 parquet 元数据(路径后路径)而不是并行读取。在 spark 读取元数据后,数据本身会被并行读取。但是元数据部分超级慢,而且机器没有得到充分利用。
有什么方法可以使用 spark 从 s3 并行读取多个镶木地板路径?
我很高兴听到您对此的意见。
解决方案
推荐阅读
- css - CSS background-position 属性在这个例子中是如何工作的?
- angular - 使用打字稿难以理解装饰器输出
- angular - 如何从java的响应中以角度下载文件?
- android - 哪个更可取:Rx-Subject 或 Android BroadcastReceiver
- r - 创建嵌套的分面网格
- javascript - 使用 CryptoJs 库时,android 和 javascript 的加密密码不同
- scala - 基于 Map 从 List[String] 转换为 List[Int]
- python - 如何获取上个月的日期范围?
- django - 使用 Django 实现基于翻译键的国际化
- python - 使用 QSortFilterProxyModel 时的 pyQt5 段错误