hive - Hive:将 gziped CSV 从 hdfs 以只读方式加载到表中
问题描述
我有一个 hdfs 文件夹,里面有很多 csv.gz,都具有相同的架构。我的客户需要通过 Hive 读取这些表的内容。
我试图申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要它保留在其初始目录中。
另一个问题是我应该一个一个地加载每个文件,我宁愿从目录中创建一个表而不是单独管理文件。
我根本不掌握 Hive。他的可能吗?
解决方案
是的,这可以通过Hive
. 您可以创建外部表并引用HDFS
包含文件的现有位置gzip
。应在创建表期间指定数据的模式。
hive> CREATE EXTERNAL TABLE my_data
(
column_1 int,
column_2 string
)
LOCATION 'hdfs:///my_data_folder_with_gzip_files';
推荐阅读
- angular - 将电容器相机结果转换为 Blob
- python - 更新 pip 成功,但之后收到错误消息
- sql - 如何获取至少包含所有标签的配置文件(has_and_belongs_to_many 关系)
- macos - SSH 检查远程 gerrit 服务器名称不工作
- django - Django Web 应用程序,Facebook 登录
- php - 在 Web 应用程序中使用 Wordpress 或其他 CMS?
- c - 从另一个 .c 文件中提取 #define 语句以保持反向兼容性
- android - 监听器从 DialogFragment 获取信息到父 Fragment 的上下文是什么
- python - 带有嵌套关键字参数的奇怪语法错误
- regex - 如何在 AWK 的字段分隔符中使用抑扬符?