首页 > 解决方案 > 通过明确的想法按/集群排序分发

问题描述

我对在 hive 中按 /cluster by 排序进行分发没有明确的想法

据我了解,当我们在hive中使用distribute by sort by /cluster by时会使用多个reducer,这样排序会更快

但是为什么在对列进行排序时需要reducer,排序可以通过map完成,它不涉及任何聚合函数

它与我们在创建表时使用的排序依据有任何关系吗

我面临的问题是,

select * from order_items cluster by order_item_order_id limit 10;

对于上述查询,即使我使用命令
set mapreduce.job.reduce=4 ,reducer 计数也不会改变

它仍然是 1

你可以在这里看到,即使你的 change reducer 计数,它仍然是 1

尽管有与此相关的帖子,但那里给出的答案并不能消除我的疑问..提前谢谢....

标签: hivebigdatahiveql

解决方案


推荐阅读