首页 > 解决方案 > AWS Glue Crawler 不附加数据

问题描述

我创建了使用分类器将 csv 文件导入数据表的 aws 爬虫。哪个工作正常。

问题:每次爬虫覆盖旧数据。我想保留以前的数据并附加 csv 文件的新内容。

即我已经上传了 250 条记录的 csv 文件。当我执行该爬虫时,它填充了 250 行的表。

现在,如果我用其他内容替换该 csv 文件,那么它将覆盖旧的 250 行并仅用最新数据填充表。

谁能帮助我如何保留旧记录并附加新数据。

谢谢,

标签: aws-glueaws-glue-data-catalog

解决方案


胶水爬虫不会用行/记录填充表。它只是定义有关您的数据的元信息,即推断表模式和这些文件在 S3(或其他资源)上的位置等。这意味着如果您想保留旧记录,则需要将这两个文件都保留在 S3 上。

请注意,如果您将新文件保存在 S3 上与旧文件相同的“文件夹”中,则无需重新运行爬虫,因为查询这些文件(例如使用 Athena)所需的信息已经定义。


推荐阅读