首页 > 解决方案 > 防止 AWS 胶水爬虫创建多个表

问题描述

我创建了一个胶水爬虫,它抓取数据并在胶水数据目录中创建表。假设我有一个 CSV 文件 ( file1.csv),它具有类似 ( id, name) 的架构,并且一旦爬虫作业执行完成,它就会创建crawler_file带有 2 列 ( id, ) 的 Athena 表 ( name)。现在有一个新文件 ( file2.csv),它的模式类似于 ( id, name, roll_no)。目前,当胶水爬虫正在执行时,它正在创建一个crawler_file_111带有架构(id, name, )的新 Athena 表( roll_no)。我可以配置爬虫,让爬虫而不是创建新表来更新表的现有架构吗?在这种情况下,而不是创建一个新的 Athena 表 ( crawler_file_111),它应该更新现有的 Athena 表 (crawler_file)。我能以某种方式实现这种情况吗?

标签: aws-glue

解决方案


在编辑爬虫页面中,请启用以下选项。这必须为你工作。

在此处输入图像描述


推荐阅读