hdfs - 使用 Impala 在 HDFS 中查询 Parquet 文件
问题描述
我正在尝试使用 Impala 读取镶木地板文件。
impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`
我知道我可以使用 Spark 或 Drill 做到这一点,但我想知道 Impala 是否有可能?
谢谢
解决方案
您需要在文件table
之上创建一个结构化的parquet
文件以通过 Impala 进行查询。
external table
指向 parquet 目录的一般示例... Cloudera 文档在此处提供所有方法:
https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl
CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
STORED AS PARQUET
LOCATION '/user/etl/destination';
推荐阅读
- sharepoint - 我可以在 SharePoint Intranet 网站中添加用户表单吗?
- spring-boot - 为什么使用OffsetDateTime在oracle数据库中保存的日期少了一天?
- powershell - - 用于 powershell 的 Whatif cmdlet
- android - 更新到北极狐后,Android XML 预览不清楚
- php - 是否可以挂钩原生 PHP 函数/对象,从而更容易使用 Fibers API?
- c# - 如何在 jquery 中更新模型视图数据?
- r - 需要帮助来显示图例和与数据相似的颜色代码
- reactjs - React-Query, useQuery 仅在加载完成后返回 undefined
- java - 有没有办法使用 Advice API 获取方法签名?
- android - 如何将参数从 DAO 中的方法传递到 SQL 查询?