aws-glue - 防止 AWS 胶水爬虫创建多个表
问题描述
我创建了一个胶水爬虫,它抓取数据并在胶水数据目录中创建表。假设我有一个 CSV 文件 ( file1.csv
),它具有类似 ( id
, name
) 的架构,并且一旦爬虫作业执行完成,它就会创建crawler_file
带有 2 列 ( id
, ) 的 Athena 表 ( name
)。现在有一个新文件 ( file2.csv
),它的模式类似于 ( id
, name
, roll_no
)。目前,当胶水爬虫正在执行时,它正在创建一个crawler_file_111
带有架构(id
, name
, )的新 Athena 表( roll_no
)。我可以配置爬虫,让爬虫而不是创建新表来更新表的现有架构吗?在这种情况下,而不是创建一个新的 Athena 表 ( crawler_file_111
),它应该更新现有的 Athena 表 (crawler_file
)。我能以某种方式实现这种情况吗?