首页 > 解决方案 > 按 S3 创建日期划分 Athena 查询

问题描述

我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个按时间戳和 JSON 中定义的其他一些键查询的 athena 表。

可以保证,JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少对于我的查询而言足够相等)

我可以通过将 createddate 添加为“分区”之类的东西来以某种方式提高查询性能(和成本)吗?我理解这似乎只有前缀/文件夹才有可能?

编辑:我目前通过使用 S3 库存 CSV 通过 createdDate 进行预过滤来模拟这一点,然后下载所有 JSON 并进行其余的过滤,但如果可能的话,我想完全在雅典娜内部进行

标签: amazon-s3amazon-athenaaws-glue

解决方案



推荐阅读