scala - 从 S3 读取压缩的 CSV 文件

我应该使用 Spark 从 S3 读取数千个 *.CSV 文件。这些文件在其属性中Content-Encoding具有元数据。gzip通常我会这样做：

sqlContext.read.csv("s3a://bucket/file.csv")

但这在这种情况下不起作用，因为文件已被压缩。如果我可以更改文件的扩展名，它将起作用（但我无法控制）：

sqlContext.read.csv("s3a://bucket/file.csv.gz")

我知道这种将文件扩展名注册为压缩文件的方法，但是将 .csv 添加为压缩扩展名对于普通的 CSV 文件来说是有问题的。有什么方法可以强制 Spark 解压缩 CSV 文件而不添加 .csv 作为压缩格式？

标签： scalaapache-sparkamazon-s3