hive - Hive 中的“分区”是什么,我应该在这里做什么?
问题描述
我有一个包含以下列的文件,我被要求“根据提取日期进行分区”。“提取日期”是文件中的一列。以下是文件中的列:
- 提取日期
- 姓名
- 地点
- 提取日期
现在,我已经在我的 Unix 目录中包含了这个文件。
我被要求在这里做什么?
解决方案
分区是 Hive 中提供的一项功能,用于定位表中的一组记录。
首先,您根据“提取日期”列创建一个分区表,如下所示
create table <table_name>
(
name string,
location string
)
partitioned by (extract_date string)
stored as TEXTFILE;
通过这样做,您的分区表将被创建。
现在,为了将文件中的数据加载到表中,还有很多方法可以做到这一点,
使用静态分区机制加载
通过从另一个表中选择数据等使用动态分区加载。
推荐阅读
- c# - 如何在 SQL Server 中将日期时间字符串转换为日期时间
- tableau-api - Tableau 中是否有三轴选项
- sql - ..TABLENAME 在 SQL SERVER 上的用途是什么
- r - 如何使用 sprintf() 函数格式化 R 中的列
- .net-core - Azure Functions Errro - 无法加载文件或程序集 System.Configuration.ConfigurationManager,版本 = 4.0.3.0
- java - 创建一个可以修改其值的变量数组
- r - 根据列表值过滤数据框列
- python - Selenium - 下拉选择显示新字段。如何更新驱动程序,以便它可以看到它们?
- mongodb - 将字段转换为另一种类型并批量更新整个集合?
- c# - 如何调整半透明导航栏中的阴影?