apache-spark - 在 Spark 中读取压缩的 JSON
问题描述
我将数据作为 utf-8 编码的 json 文件存储在 S3 中,并使用 snappy/lz4 压缩。我想使用 Spark 来读取/处理这些数据,但 Spark 似乎需要文件名后缀( .lz4
, .snappy
) 才能理解压缩方案。
问题是我无法控制文件的命名方式——它们不会用这个后缀编写。重命名所有此类文件以包含诸如后缀之类的文件也太昂贵了。
spark有什么办法可以正确读取这些JSON文件吗?对于 parquet 编码文件'parquet.compression' = 'snappy'
,Hive Metastore 中有一个,它似乎解决了 parquet 文件的这个问题。文本文件有类似的东西吗?
解决方案
推荐阅读
- mysql - 使用python 3.6的mysql查询(字符串变量在单引号中)
- python - Grakn 1.7.1 的数据加载问题
- python - 如何修复 [CRITICAL] App.root 必须是 Widget 的_instance_
- xcode - SwiftUI @State 未在旧项目中更新
- android - RadioButton 在取消选中后留下黑色选中的圆圈
- java - Netbeans - 将使用 GUI Builder 制作的 GUI 组件存储在数组中
- javascript - 我可以通过哪种方式验证随机密码?
- asp.net - 获取连接打印机的名称以在 C# 中打印 POS 收据
- reactjs - 重新渲染时的 useContext 值更改
- sql - SQLite - 如何计算不包括具有特定列相同值的行的行