首页 > 解决方案 > 如何在不使用火花的情况下在 s3 中压缩镶木地板文件

问题描述

我有一个位于 S3 parquet 文件上的 AWS 分区 Athena 表,并且我正在运行插入到 select语句中。这工作正常,但它为每个分区创建相对较小的文件。我看到有可能将这些文件压缩为更大的文件以获得更好的性能。我看到的示例仅处理我没有的火花发动机。问题 - 有没有办法在没有 spark 的帮助下执行压缩,而是在其他一些 python 包的帮助下?

标签: amazon-s3parquet

解决方案


推荐阅读