首页 > 解决方案 > 在 S3 之上创建临时分析的不同方法

问题描述

我有一个数据湖AWS S3。数据格式为Parquet。每日工作量约为 70G。我想在这些数据之上构建一些临时分析。为此,我看到了 2 个选项:

  1. 用于AWS Athena通过 HiveQL 请求数据以通过AWS Glue(Data Catalog) 获取数据。
  2. 将数据从 S3 移动到作为数据仓库的 Redshift 并查询 Redshift 以执行临时分析。

在我的情况下,进行 ah-hoc 分析的最佳方法是什么?有没有更有效的方法?上述选项的优缺点是什么?

附言

6 个月后,我要将数据从 S3 移动到 Amazon Glacier,以便在 S3/Redshift 中查询的最大数据量约为 13T

标签: amazon-web-servicesamazon-s3bigdataamazon-redshiftadhoc-queries

解决方案


推荐阅读