json - 如何使用 Apache Spark Java 解压缩 Gzipped
问题描述
我有一个序列文件。在这个文件中,每个值都是用 GZipped 压缩的 json 文件。我的问题,如何使用 Apache Spark 读取压缩的 json 文件?
为此我的代码,
JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);
JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
byte[] uncompress = uncompress(stringTuple2._2);
return uncompress.toString();
}
});
但是此代码功能不起作用。祝你今天过得愉快
解决方案
在创建火花上下文时,使用构造函数,它也将火花配置作为第三个参数。
设置键“org.apache.hadoop.io.compression.codecs”的spark配置值</p>
如下
“org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec”</p>
推荐阅读
- sharepoint - PowerApps 链接到外部网页
- python - 带有 ThreadPoolExecutor 和请求的 Python Segmentation Fault 11
- c# - C#程序在编译时创建一个dll文件
- javascript - 反应路由器 - 指定路由接口
- java - 如何在spring中重用socket连接来发送ISO8583消息
- sql - 错误报告 - ORA-25155: 自然连接中使用的列不能有限定符 25155。00000 - “自然连接中使用的列不能有限定符”
- c++ - 如何在安装程序中包含 Visual C++ 可再发行组件
- node.js - 使用 FFMPEG 通过 Blob Urls (NodeJS) 将 .mov 转换为 mp4
- angular - 如何从 SafeResourceUrl 获取 URL 值(
- css - 使用 :focus 选择器更改标签标签