首页 > 解决方案 > 从火花桶中检索数据

问题描述

因此,如果我使用 partition by 将数据保存在 spark 表中,我们知道我们的数据在哪个分区(如国家名称和州),因此当我们通过提及国家名称和州来编写 where 子句时,它会从那里

所以以这种方式它限制了访问并直接搜索关键字,但是如果我们想要做分桶,因为分区对于唯一值来说太多了

所以我们将有桶号。桶数,后跟列名。

但是当想要从分桶数据中获取数据时不会很昂贵,因为我们不知道我们的数据实际在哪里,并且最终会遍历整个桶区域

请解释

标签: apache-sparkapache-spark-sqlbigdatapartitioning

解决方案


推荐阅读