首页 > 解决方案 > 当我再次运行 Glue Crawler 而不更改它指向的 S3 路径中的文件时会发生什么?

问题描述

我曾经运行过一次 AWS Crawler。我再次运行相同的 Crawler。第一次和第二次有什么区别?

当我在 S3 中的文件没有任何更改的情况下运行相同的 AWS Crawler 增益时,它会爬取所有文件增益吗?

有时我的存储桶中可能有 500 个文件。Crawler 会处理所有文件还是什么都不做,因为文件没有被修改并且没有新文件?

标签: aws-glueaws-glue-data-catalog

解决方案


根据文档

如果您的爬虫运行不止一次,可能会按计划运行,它会在您的数据存储中查找新的或更改的文件或表。爬虫的输出包括自上次运行以来发现的新表和分区。

我想它有一种使用文件修改日期跟踪 S3 文件更改的机制。


推荐阅读