aws-glue-data-catalog - 在创建 Glue 分区时确保数据准备好被查询的好方法?
问题描述
我们有每隔几分钟按计划运行的查询,它们连接几个不同的粘合表(通过 Athena),然后再得出一些结果。对于有问题的表,我们设置了 Glue Crawlers,并根据 snapshot_date 和其他几列进行分区。
在查询中,我们获取最新的 snapshot_date 并仅使用来自该 snapshot_date 的数据进行查询。S3 中的数据每天会更新几次并放入正确的文件夹中,但有时,如果我们尝试在 S3 中的数据更新时正确查询数据,我们最终会得到空结果,因为在 Glue 仍在设置数据时尝试访问新的 snapshot_date 分区的查询(?)
在我们开始查询之前,有没有一种内置的方法来确保我们的粘合分区已经准备好?到目前为止,我们考虑在我们的查询中构建人工时间“缓冲区”,大约在我们期望写入 snapshot_date 分区数据和完成胶水更新时,但我知道这真的很脆弱,并且取决于确切的时间。
解决方案
推荐阅读
- flutter - 如何将参数传递给有状态的小部件?
- java - Java模型,摆脱多张地图
- javascript - JQuery 'animate' 在 2 次调用后停止工作
- python - 使用 setUpTestData 的 Django 测试不会保留测试之间的更改
- python - 在写入 laspy 文件时定义新维度
- c - 在c中的另一个函数中分配结构
- java - 子字符串字符串直到第一个字母
- mysql - 使用单个查询更新两个表
- python - Django 项目模板错误:django.template.exceptions.TemplateDoesNotExist
- google-chrome - 使用支持悬停的输入类型启动无头 Chrome