首页 > 解决方案 > 压缩火花输出文件

问题描述

我正在尝试使用以下压缩火花输出,但我的输出未压缩,知道为什么吗?我在这里没有完整的代码,但输入了问题所需的任何内容。

           try (final JavaSparkContext context = new JavaSparkContext(sc)) 
                   {

            context.hadoopConfiguration().set("mapreduce.output.basename", prefix);
            context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress.codec",
                    "com.hadoop.compression.lzo.LzopCodec");              
 uncompressed.coalesce(count).saveAsNewAPIHadoopFile(
                            output,
                            NullWritable.class,
                            Text.class,
                            TextOutputFormat.class,
                            context.hadoopConfiguration());

}

我在这里做错什么了吗?我所知道的

context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress.codec",
                    "com.hadoop.compression.lzo.LzopCodec");  should do the trick.

标签: apache-sparkhadoop

解决方案


我缺少 context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress", "true");

现在可以了。


推荐阅读