首页 > 解决方案 > 在 Spark 中读取压缩的 JSON

问题描述

我将数据作为 utf-8 编码的 json 文件存储在 S3 中,并使用 snappy/lz4 压缩。我想使用 Spark 来读取/处理这些数据,但 Spark 似乎需要文件名后缀( .lz4, .snappy) 才能理解压缩方案。

问题是我无法控制文件的命名方式——它们不会用这个后缀编写。重命名所有此类文件以包含诸如后缀之类的文件也太昂贵了。

spark有什么办法可以正确读取这些JSON文件吗?对于 parquet 编码文件'parquet.compression' = 'snappy',Hive Metastore 中有一个,它似乎解决了 parquet 文件的这个问题。文本文件有类似的东西吗?

标签: apache-sparkhivepysparkhive-metastore

解决方案


推荐阅读