首页 > 解决方案 > 是否可以在 HDFS 上解压 tar.gz 文件并将其放在不同的 HDFS 文件夹中而不将其带到本地系统

问题描述

我里面有employee_mumbai.tar.gz 文件,我有name.json 和salary.json。并且 tar.gz 存在于 HDFS 位置。是否可以解压/解压缩 gzip 文件并将 json 文件放入 HFDS 文件夹而不将其带到本地文件系统。注意:请记住它不是一个文本文件和两个 json 文件的唯一信息。

请让我知道是否可以在spark中直接分别读取不同数据帧中的两个文件。

标签: apache-sparkunixhadoophdfs

解决方案


This worked for me:

hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/ 

推荐阅读