首页 > 解决方案 > 快速压缩

问题描述

我正在尝试将 avro 文件存储为具有快速压缩的镶木地板文件。尽管数据被写入为带有 filename.snappy.parquet 的镶木地板,但文件大小保持不变。粘贴代码。

代码:

sqlContext.setConf("spark.sql.parquet.compression.codec","snappy") 

orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")

标签: apache-sparkhadoopapache-spark-sqlparquetsnappy

解决方案


Snappy 压缩是 parquet-mr(Spark 用于编写 Parquet 文件的库)中的默认值。所以这里唯一改变的是文件名。


推荐阅读