首页 > 解决方案 > Aws Glue 工作不断将数据推送到红移

问题描述

我有一个表(在 s3 中),其中转储了记录,并且基于“年”、“月”、“日”的分区。我想从胶水目录(因为我已经在上面运行了一个爬虫)数据库中将这些数据转储到红移。那么创建一个书签并使用“年”、“月”、“日”列会起作用吗?我有这个疑问的原因是,我认为数据的标识符必须是唯一的,因为一天有多个记录,那么日期列不是唯一的

标签: amazon-web-servicesamazon-redshift

解决方案


Redshift 不会对重复数据造成任何问题。您可以定义主键约束,但它们仅供参考

顺便说一句,您可能会考虑使用使用 Spectrum 的外部表,而不是尝试管理高水位线?使用外部表,数据将自动始终是最新的,并且查询还可以利用此处记录的分区修剪。


推荐阅读