scala - 从 S3 读取压缩的 CSV 文件
问题描述
我应该使用 Spark 从 S3 读取数千个 *.CSV 文件。这些文件在其属性中Content-Encoding
具有元数据。gzip
通常我会这样做:
sqlContext.read.csv("s3a://bucket/file.csv")
但这在这种情况下不起作用,因为文件已被压缩。如果我可以更改文件的扩展名,它将起作用(但我无法控制):
sqlContext.read.csv("s3a://bucket/file.csv.gz")
我知道这种将文件扩展名注册为压缩文件的方法,但是将 .csv 添加为压缩扩展名对于普通的 CSV 文件来说是有问题的。有什么方法可以强制 Spark 解压缩 CSV 文件而不添加 .csv 作为压缩格式?
解决方案
推荐阅读
- python - 如何一次请求多个链接并稍后用scrapy解析它们?
- c++ - 在 C++17 和 emplace_back(...) 中保证复制省略
- linux - 获取映射共享内存的大小
- python - 比较特定列上的 2 个数据框
- google-cloud-dataflow - Cloud Dataflow 中 PipelineOptions 中的窗口持续时间
- python-3.x - 如何从地理数据中获取城市
- docusignapi - Docusign 请求授权码相关查询
- laravel - 如何过滤laravel中的特定记录?
- javascript - 规范化后如何保留键索引对象的项目顺序(来自服务器)?
- css - 如何使用 React 组件避免 z-index 错误