首页 > 解决方案 > 使用 Spark 的 Parquet 文件大小

问题描述

我们有一些使用 API 编写 Parquet 格式文件的旧代码org.apache.parquet.hadoop.api.WriteSupport,我们开始使用 Apache Spark 来做同样的事情。

这两种方式可以成功生成具有相同输入数据的 Parquet 文件,并且输出数据几乎相同。但是,输出文件的大小完全不同。

生成的一个WriteSupport是 2G-ish,而 Spark 生成的一个是 5.5G-ish。我比较了架构,它们是相同的,有没有我可以进一步研究的领域?

顺便说一句,WriteSupport有 parquet-mr 版本 1.8.0;Spark 1 有 1.10.0。

标签: apache-sparkparquet

解决方案


推荐阅读