首页 > 解决方案 > 在选择语句期间,S3 上的火花读取镶木地板读取多少数据是正常的?

问题描述

我们有一个 130GB 和 4000 列的表。当我们选择其中 2 个列时,我们的 Spark UI 报告总共读取了 30GB。但是,如果我们选择这两列并将它们存储为单独的数据集,则数据集的总大小仅为 17MB。鉴于镶木地板是柱状存储,某些东西似乎无法正常工作。我发现了这个问题,但我不确定如何进一步诊断以及采取哪些措施来减少所需的 I/O 数量。

据我了解,列式存储的好处是每一列都可以或多或少地相互独立地读取。

我们在 Databricks 上运行 Hadoop 2.7.X。它出现在 6.X 和 7.X 版本的 databricks (spark 2.4/3.0)

标签: apache-sparkhadoopamazon-s3parquetdatabricks

解决方案


推荐阅读