amazon-redshift - 将数据从 redshift 直接复制到 EMR 集群——这是一个好习惯吗?
问题描述
亚马逊提供了一个非常详细的文档,用于将数据从 EMR 复制到 Redshift(通过 S3),但似乎没有任何相反的文档,这让我想知道将数据从 redshift 加载到EMR(直接或通过某种媒介)
理论上我不明白为什么不,但我不知道它的后果
解决方案
我认为您可以使用 Redshift Unload。将数据导出为 Parquet,然后从 EMR Hadoop(Spark、Hive)中读取数据
UNLOAD ('select-statement')
TO 's3://object-path/name-prefix'
authorization
FORMAT PARQUET
https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html
推荐阅读
- android - 为什么我们需要为 DataBinding 和 LiveData 扩展 ```ViewModel()``` 来创建 LiveData 对象
- apache-spark - Spark - 我无法在本地模式下增加任务数量
- android - Android 应用程序布局在相同宽高比设备上显示不同
- ubuntu - 在 Linux-ARM64 上的 GUI 中显示 /dev/videoX 提要
- python - 带有输入 csv 和输出表以及绘图 png 文件的 GUI
- python - 正则表达式中缺少某些内容?
- python - 如何使用 concatenate 命令自动合并多个文件?
- oracle - 在 docker 中将 Oracle 转储表导入 Oracle 数据库
- wordpress - 如何使用“WooCommerce 的折扣规则”插件 woocommerce 以销售百分比和主页显示销售额
- sql-server - MSSQL 重复事务日志已满。需要知道是谁造成的