首页 > 解决方案 > 从 S3 读取压缩的 CSV 文件

问题描述

我应该使用 Spark 从 S3 读取数千个 *.CSV 文件。这些文件在其属性中Content-Encoding具有元数据。gzip通常我会这样做:

sqlContext.read.csv("s3a://bucket/file.csv")

但这在这种情况下不起作用,因为文件已被压缩。如果我可以更改文件的扩展名,它将起作用(但我无法控制):

sqlContext.read.csv("s3a://bucket/file.csv.gz")

我知道这种将文件扩展名注册为压缩文件的方法,但是将 .csv 添加为压缩扩展名对于普通的 CSV 文件来说是有问题的。有什么方法可以强制 Spark 解压缩 CSV 文件而不添加 .csv 作为压缩格式?

标签: scalaapache-sparkamazon-s3

解决方案


推荐阅读