首页 > 解决方案 > 从 HDFS 中的数据文件夹在配置单元中创建表 - 删除重复的行

问题描述

我在 HDFS 中有一个文件夹,我们称之为 /data/users/ 在该文件夹内,每 10 天添加一个新的 csv 文件。基本上,新文件将仅包含活动用户,例如

实际上,这些文件要大得多(每个文件约 800 万条记录,每 10 天减少 1K 条记录)。此外,较新的文件永远不会有旧文件中不存在的新记录。它只会有更少的记录。

我想使用此文件夹中的数据在 hive 中创建一个表。我现在正在做的是:

我担心创建外部表的步骤,因为数据非常大,一段时间后该表会很大,我想知道是否有更有效的方法来执行此操作,而不是每次加载所有文件在文件夹中。

所以我的问题是:将 HDFS 文件夹中的数据提取到配置单元表中的最佳方法是什么,鉴于此,该文件夹包含大量具有大量重复文件的文件。

标签: hivehdfs

解决方案


我建议按日期对数据进行分区,这样您每次读取表时都不必遍历所有记录。


推荐阅读