apache-spark - 是否可以在 HDFS 上解压 tar.gz 文件并将其放在不同的 HDFS 文件夹中而不将其带到本地系统
问题描述
我里面有employee_mumbai.tar.gz 文件,我有name.json 和salary.json。并且 tar.gz 存在于 HDFS 位置。是否可以解压/解压缩 gzip 文件并将 json 文件放入 HFDS 文件夹而不将其带到本地文件系统。注意:请记住它不是一个文本文件和两个 json 文件的唯一信息。
请让我知道是否可以在spark中直接分别读取不同数据帧中的两个文件。
解决方案
This worked for me:
hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/
推荐阅读
- vue.js - Vue - URL 查询参数未显示
- python - 无法计算 Add 作为输入 #1(从零开始)应该是一个 int32 张量,但它是一个双张量 [Op:Add]
- c# - 橡皮筋(在 Unity 2D 中实现)
- c++ - 在什么情况下你应该更喜欢使用 std::copy 写入 cout?
- javascript - TypeScript 不解决序列化和静态类型检查,那怎么办呢?
- python - Python - 从列表中提取值
- java - 装饰器设计模式java覆盖方法问题
- powershell - 返回属性的全部值
- typescript - 打字稿:在类型上动态构造属性名称
- html - 如何使用表单选择值来操作方法(无查询)