首页 > 技术文章 > 分桶表基本操作

wangzhaojun1670 2020-08-24 08:46 原文

1.什么是分桶

分桶就是将数据按照指定字段进行划分到多个文件中去。分桶就是MapReduce中的分区

2.开启Hive的分桶功能,设置Reduce个数

 

 3.创建分桶表

注:根据c_id将数据划分到3个桶中,分桶的关键字是 clustered by()into ()buckets

 将数据划分到几个桶中取决于设置的Reduce的个数

根据c_id实现分桶的原理:利用c_id的值获取一个哈希值,用哈希值对reduce的个数取模

4.向分桶表中加载数据

注:桶表数据的加载使用-put命令和load data命令均不好使,只能用insert overwrite

4.1创建分桶表

4.2创建普通表,普通表相当于一个中间表

4.3向普通表中加载数据

4.4利用insert overwrite向分桶表中加载数据

 

推荐阅读