首页 > 解决方案 > 使用 Impala 在 HDFS 中查询 Parquet 文件

问题描述

我正在尝试使用 Impala 读取镶木地板文件。

impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`

我知道我可以使用 Spark 或 Drill 做到这一点,但我想知道 Impala 是否有可能?

谢谢

标签: hdfsparquetimpala

解决方案


您需要在文件table之上创建一个结构化的parquet文件以通过 Impala 进行查询。

external table指向 parquet 目录的一般示例... Cloudera 文档在此处提供所有方法:

https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl

CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
  STORED AS PARQUET
  LOCATION '/user/etl/destination';

推荐阅读