首页 > 解决方案 > Hive:将 gziped CSV 从 hdfs 以只读方式加载到表中

问题描述

我有一个 hdfs 文件夹,里面有很多 csv.gz,都具有相同的架构。我的客户需要通过 Hive 读取这些表的内容。

我试图申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要它保留在其初始目录中。

另一个问题是我应该一个一个地加载每个文件,我宁愿从目录中创建一个表而不是单独管理文件。

我根本不掌握 Hive。他的可能吗?

标签: hivecomputer-visiongzip

解决方案


是的,这可以通过Hive. 您可以创建外部表并引用HDFS包含文件的现有位置gzip。应在创建表期间指定数据的模式。

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';

推荐阅读