首页 > 解决方案 > 将数据从 redshift 直接复制到 EMR 集群——这是一个好习惯吗?

问题描述

亚马逊提供了一个非常详细的文档,用于将数据从 EMR 复制到 Redshift(通过 S3),但似乎没有任何相反的文档,这让我想知道将数据从 redshift 加载到EMR(直接或通过某种媒介)

理论上我不明白为什么不,但我不知道它的后果

标签: amazon-redshiftamazon-emr

解决方案


我认为您可以使用 Redshift Unload。将数据导出为 Parquet,然后从 EMR Hadoop(Spark、Hive)中读取数据

UNLOAD ('select-statement')
TO 's3://object-path/name-prefix'
authorization
FORMAT PARQUET

https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html


推荐阅读