hive - 通过明确的想法按/集群排序分发
问题描述
我对在 hive 中按 /cluster by 排序进行分发没有明确的想法
据我了解,当我们在hive中使用distribute by sort by /cluster by时会使用多个reducer,这样排序会更快
但是为什么在对列进行排序时需要reducer,排序可以通过map完成,它不涉及任何聚合函数
它与我们在创建表时使用的排序依据有任何关系吗
我面临的问题是,
select * from order_items cluster by order_item_order_id limit 10;
对于上述查询,即使我使用命令
set mapreduce.job.reduce=4 ,reducer 计数也不会改变
它仍然是 1
你可以在这里看到,即使你的 change reducer 计数,它仍然是 1
尽管有与此相关的帖子,但那里给出的答案并不能消除我的疑问..提前谢谢....
解决方案
推荐阅读
- java - 超出内存限制:使用 Java Scanner 时
- .net - dotnetdependensee 对路径的访问被拒绝
- python - 使用 mypy 对方法进行后置条件
- uri - URI 方案的 URI 方案
- reactjs - 如何在 localhost (NextJS) 上运行 web 应用程序的 nrwl/nx 生产版本
- flutter - 如何在 Flutter 中保持状态变化
- c# - 通过 .NET SDK 创建链接的自托管集成运行时
- rust - 为什么在引用时,int lterals 会继续堆?
- php - 如何使用谷歌距离矩阵获取两个位置之间的距离
- installation - 我在 pythom anaconda 3.8.5 64bit 中安装 gdal 时遇到问题