首页 > 解决方案 > 运行完全相同的查询时,Athena 返回不同的结果集

问题描述

当我在同一个数据集(s3 上完全相同的 parquet 文件)上多次运行完全相同的查询时,每次返回的结果集略有不同。有时缺少几行或聚合数据略有偏差等。当然,查询相对复杂,有几个嵌套查询和在分区子集上运行的聚合,但我不明白为什么查询结果会有所不同。是否有我不知道的查询结果一致性类型的设置?

标签: amazon-web-servicesamazon-s3amazon-athena

解决方案


拥有数据的示例查询和示例布局会很有帮助。首先想到的是数据不断地附加到 parquet 文件中,但您确认情况并非如此。

如果您有很多分区,则可能是 Athena 尚未加载其中一些分区(自动)。虽然分区可能存在,但 Athena 还需要将这些分区加载到内部 Athena 数据目录中。可能是该数据目录中仍然缺少其中一些分区,因此在运行查询时未使用。结果是您的聚合略有偏差。

您可以尝试以下操作,然后再次运行查询几次,看看结果是否仍然变化:

MSCK REPAIR TABLE table_name;

更多信息可以在这里找到。


推荐阅读