amazon-s3 - 按 S3 创建日期划分 Athena 查询
问题描述
我有一个包含约 7000 万个 JSON(约 15TB)的 S3 存储桶和一个按时间戳和 JSON 中定义的其他一些键查询的 athena 表。
可以保证,JSON 中的时间戳或多或少等于 JSON 的 S3-createdDate(或至少对于我的查询而言足够相等)
我可以通过将 createddate 添加为“分区”之类的东西来以某种方式提高查询性能(和成本)吗?我理解这似乎只有前缀/文件夹才有可能?
编辑:我目前通过使用 S3 库存 CSV 通过 createdDate 进行预过滤来模拟这一点,然后下载所有 JSON 并进行其余的过滤,但如果可能的话,我想完全在雅典娜内部进行
解决方案
推荐阅读
- javascript - 重置 setInterval 会将其置于多循环间隔中
- memory-management - Win64、MacOS、Linux下如何获取虚拟地址空间和单独配置内存?
- integration - 为什么我的 NetSuite 创建操作不返回任何自定义字段?
- python - PythonKit 无法为 Swift 框架加载对象(适用于 Swift 应用程序)
- java - 项目编译为jar后停止工作
- python - 将代码升级到 tensorflow 2.0 时出现 *variable 语法错误
- sas - 行标签被截断
- dataframe - 如何从 Julia 的单列 DataFrame 中提取 column_name 字符串和数据向量?
- python - ThreadPoolExecutor(workers) 增加内存使用
- angular - Angular 8,PrimeNG p-dropdown 选择默认值