apache-spark - 压缩火花输出文件
问题描述
我正在尝试使用以下压缩火花输出,但我的输出未压缩,知道为什么吗?我在这里没有完整的代码,但输入了问题所需的任何内容。
try (final JavaSparkContext context = new JavaSparkContext(sc))
{
context.hadoopConfiguration().set("mapreduce.output.basename", prefix);
context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress.codec",
"com.hadoop.compression.lzo.LzopCodec");
uncompressed.coalesce(count).saveAsNewAPIHadoopFile(
output,
NullWritable.class,
Text.class,
TextOutputFormat.class,
context.hadoopConfiguration());
}
我在这里做错什么了吗?我所知道的
context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress.codec",
"com.hadoop.compression.lzo.LzopCodec"); should do the trick.
解决方案
我缺少 context.hadoopConfiguration().set("mapreduce.output.fileoutputformat.compress", "true");
现在可以了。
推荐阅读
- javascript - JS 警报上的页面刷新 - 无法专注于文本输入
- postgresql - 从 Docker 到 Windows 的备份和恢复,反之亦然?
- c# - wpf 绑定 ObservableDictionary
- r - 在 bs4Dash R 闪亮应用程序中永久更改导航栏主题颜色
- mysql - 如何通过 Ruby 的“mysql2”gem 连接到 MySQL?
- symfony - 如何在具有symfony主键的表中插入值
- ios - 在 Swift 中绘制正弦曲线
- lucene - 如何集成 Couchdb 和 Couchdb Lucene
- reactjs - 如何访问通过“this.props.history.push(...)”传递的数据
- r - 自定义 key_glyph 的大小和对齐方式与包装的标签文本