首页 > 解决方案 > AWS S3 - 插入分桶 ORC 表

问题描述

我正在考虑将数据存储在其中S3ORC format进行查询Athena

我想像这样对数据进行分区......

.../year=2019/month=7/

...并通过 id 进一步存储数据(id每个月都有多个记录,有很多 id)

我希望能够每天将新数据插入到这个结构中......我知道我不能使用INSERT INTO来自 Athena 的语句,因为不支持分桶表。

每天将数据插入这种结构的表中的最佳方法是什么?甚至可以处理分桶数据吗?

干杯

标签: amazon-s3amazon-athenaorc

解决方案


自Presto 312以来,Presto 允许插入到分桶分区表的现有分区中。如果 Athena 不支持这一点,您可以非常轻松地自己运行 Presto 集群,例如使用Starburst Presto AWS 集成(我也可以出于其他原因推荐这个,因为如果您运行的不仅仅是几个查询,它可能比使用 Athena 便宜得多. 免责声明:我来自 Starburst)


推荐阅读