首页 > 解决方案 > 增量加载的 parquet 文件如何提高性能?

问题描述

https://aseigneurin.github.io/2017/03/14/incrementally-loaded-parquet-files.html
我浏览了这篇博文,上面说,当我们不做基于时间的分析时,最好使用Append 模式将增量数据添加到 Parquet 文件。它还指出,按天进行分区的传统方式效率低下,因为阅读器必须读取每个单独的文件。有人可以解释附加模式如何使阅读器更有效率吗?我可以清楚地看到,即使使用附加模式,我们最终也会得到多个文件,读者必须通过这些文件。

标签: parquet

解决方案


推荐阅读