apache-spark - 使用 Spark 的 Parquet 文件大小

我们有一些使用 API 编写 Parquet 格式文件的旧代码org.apache.parquet.hadoop.api.WriteSupport，我们开始使用 Apache Spark 来做同样的事情。

这两种方式可以成功生成具有相同输入数据的 Parquet 文件，并且输出数据几乎相同。但是，输出文件的大小完全不同。

生成的一个WriteSupport是 2G-ish，而 Spark 生成的一个是 5.5G-ish。我比较了架构，它们是相同的，有没有我可以进一步研究的领域？

顺便说一句，WriteSupport有 parquet-mr 版本 1.8.0；Spark 1 有 1.10.0。

标签： apache-sparkparquet