apache-spark - 使用 Spark 的 Parquet 文件大小
问题描述
我们有一些使用 API 编写 Parquet 格式文件的旧代码org.apache.parquet.hadoop.api.WriteSupport
,我们开始使用 Apache Spark 来做同样的事情。
这两种方式可以成功生成具有相同输入数据的 Parquet 文件,并且输出数据几乎相同。但是,输出文件的大小完全不同。
生成的一个WriteSupport
是 2G-ish,而 Spark 生成的一个是 5.5G-ish。我比较了架构,它们是相同的,有没有我可以进一步研究的领域?
顺便说一句,WriteSupport
有 parquet-mr 版本 1.8.0;Spark 1 有 1.10.0。
解决方案
推荐阅读
- ios - iOS 开发 - 包括 iPhone 4s 是强制性的吗?
- java - 微服务 - 将每个子服务保存在单独的 git 存储库中还是使用单个 git 存储库?
- python - 用户与 django 的交互
- python - 基于另一个数据帧配对更新一个值
- java - 如何使用 Java 11 HttpClient 发布字符串数组?
- rxjs - 在 ConcatMap 中使用延迟,Observable 只发出一次
- java - MongoDB 默认过滤器
- asp.net - Automapper 缺少类型映射配置或不支持的映射错误
- asp.net - 跨分区查询是必需的,但已禁用
- django - 对象在 Django Rest Framework 中没有属性