首页 > 解决方案 > Hive 中的“分区”是什么,我应该在这里做什么?

问题描述

我有一个包含以下列的文件,我被要求“根据提取日期进行分区”。“提取日期”是文件中的一列。以下是文件中的列:

  1. 提取日期
  2. 姓名
  3. 地点
  4. 提取日期

现在,我已经在我的 Unix 目录中包含了这个文件。

我被要求在这里做什么?

标签: hiverdbmspartitioning

解决方案


分区是 Hive 中提供的一项功能,用于定位表中的一组记录。

首先,您根据“提取日期”列创建一个分区表,如下所示

create table <table_name> 
(
name string,
location string
)
partitioned by (extract_date string)
stored as TEXTFILE;

通过这样做,您的分区表将被创建。

现在,为了将文件中的数据加载到表中,还有很多方法可以做到这一点,

  1. 使用静态分区机制加载

  2. 通过从另一个表中选择数据等使用动态分区加载。


推荐阅读