apache-spark - 在 Spark 中读取压缩的 JSON

首页 > 解决方案 > 在 Spark 中读取压缩的 JSON

问题描述

我将数据作为 utf-8 编码的 json 文件存储在 S3 中，并使用 snappy/lz4 压缩。我想使用 Spark 来读取/处理这些数据，但 Spark 似乎需要文件名后缀( .lz4, .snappy) 才能理解压缩方案。

问题是我无法控制文件的命名方式——它们不会用这个后缀编写。重命名所有此类文件以包含诸如后缀之类的文件也太昂贵了。

spark有什么办法可以正确读取这些JSON文件吗？对于 parquet 编码文件'parquet.compression' = 'snappy'，Hive Metastore 中有一个，它似乎解决了 parquet 文件的这个问题。文本文件有类似的东西吗？

标签： apache-sparkhivepysparkhive-metastore

解决方案

推荐阅读