aws-glue - 在 AWS Glue 中添加数据列
问题描述
我找不到合适的子社区,所以我希望我的问题适合这里。
我目前正在使用 S3、Lambda、Redshift 和 Glue 在 AWS 上为分析解决方案设置 ETL 管道。这样做我偶然发现了一个我认为很常见的用例,但我在谷歌上根本找不到太多关于它的信息。
我的问题是,几个月来我一直在从第三方来源获取数据,然后才发现我错过了一些很好的专栏。在初始设置期间,只需重置所有内容并使用新数据表(在胶水和红移中)重新加载所有内容并没有什么大问题,但此时这将花费大量资金。
在 Glue 数据目录中的现有数据表中添加数据列而不创建全新表的好方法是什么?对于预先存在的行,我可以只使用空(或 NULL)值。
非常感谢!
解决方案
您可以使用以下两个选项中的任何一个将列添加到 Glue 数据目录中的现有表
第一个选项是在胶水控制台上手动更改数据库 -> 表 -> 单击表 -> 编辑模式 -> 添加列。更新后,您应该能够在表格中看到它。
如果您不想手动操作,则可以通过选择编程语言来使用Glue API 调用。例如用于Boto3 API 调用的 python 。
推荐阅读
- php - 仅从表 id 2 数据中获取数据
- c# - 如何使用托管标识删除 Azure Batch Pool 和作业?
- lucene - Apache Ignite 中的 TEXT 查询没有给出任何结果
- php - 在wordpress中的页码后添加URL参数
- javascript - 以更有效的方式使用 Javascript 更改 CSS 属性
- java - 无法在提供的参数值中找到“in_id”的相应参数值
- php - 使用 composer 安装 Laravel 编译资源(Mix)
- sql - MS SQL:通过包含新表中的其他列来更改索引视图
- c# - 如何在 Visual Studio 2017 中使用 gRPC 模板?
- php - 我在将数据从 PHP 更新到我的 SQL 数据库时发现了一个问题,我想根据学生 ID 进行更新