amazon-web-services - 在 S3 之上创建临时分析的不同方法
问题描述
我有一个数据湖AWS S3
。数据格式为Parquet
。每日工作量约为 70G。我想在这些数据之上构建一些临时分析。为此,我看到了 2 个选项:
- 用于
AWS Athena
通过 HiveQL 请求数据以通过AWS Glue
(Data Catalog) 获取数据。 - 将数据从 S3 移动到作为数据仓库的 Redshift 并查询 Redshift 以执行临时分析。
在我的情况下,进行 ah-hoc 分析的最佳方法是什么?有没有更有效的方法?上述选项的优缺点是什么?
附言
6 个月后,我要将数据从 S3 移动到 Amazon Glacier,以便在 S3/Redshift 中查询的最大数据量约为 13T
解决方案
推荐阅读
- php - 同时或同时将 lastInsertId 从一个表插入到另一个表的可能方法
- javascript - 命令完成时间过长
- android - bundle.js 文件在文件已经在 pwa 的缓存中后被删除
- c - 查找两个用户输入数组的均值、众数和中位数的 C 代码
- python - python yield/send如何做re-entry
- javascript - 在构建时可组合部分中定义 js 应用程序
- swift - SwiftUI 中的相对大小
- swift - 有没有办法从图像形状创建精确的点击区域?
- typescript - 向函数添加符号
- node.js - 如何将请求结果以快递形式放入 html 中?