首页 > 解决方案 > 在 AWS Glue 中添加数据列

问题描述

我找不到合适的子社区,所以我希望我的问题适合这里。

我目前正在使用 S3、Lambda、Redshift 和 Glue 在 AWS 上为分析解决方案设置 ETL 管道。这样做我偶然发现了一个我认为很常见的用例,但我在谷歌上根本找不到太多关于它的信息。

我的问题是,几个月来我一直在从第三方来源获取数据,然后才发现我错过了一些很好的专栏。在初始设置期间,只需重置所有内容并使用新数据表(在胶水和红移中)重新加载所有内容并没有什么大问题,但此时这将花费大量资金。

在 Glue 数据目录中的现有数据表中添加数据列而不创建全新表的好方法是什么?对于预先存在的行,我可以只使用空(或 NULL)值。

非常感谢!

标签: aws-glue

解决方案


您可以使用以下两个选项中的任何一个将列添加到 Glue 数据目录中的现有表

  1. 第一个选项是在胶水控制台上手动更改数据库 -> 表 -> 单击表 -> 编辑模式 -> 添加列。更新后,您应该能够在表格中看到它。

  2. 如果您不想手动操作,则可以通过选择编程语言来使用Glue API 调用。例如用于Boto3 API 调用的 python 。


推荐阅读