aws-glue - 当我再次运行 Glue Crawler 而不更改它指向的 S3 路径中的文件时会发生什么?
问题描述
我曾经运行过一次 AWS Crawler。我再次运行相同的 Crawler。第一次和第二次有什么区别?
当我在 S3 中的文件没有任何更改的情况下运行相同的 AWS Crawler 增益时,它会爬取所有文件增益吗?
有时我的存储桶中可能有 500 个文件。Crawler 会处理所有文件还是什么都不做,因为文件没有被修改并且没有新文件?
解决方案
根据文档
如果您的爬虫运行不止一次,可能会按计划运行,它会在您的数据存储中查找新的或更改的文件或表。爬虫的输出包括自上次运行以来发现的新表和分区。
我想它有一种使用文件修改日期跟踪 S3 文件更改的机制。
推荐阅读
- spring-boot - 提交无法完成,因为该组已经重新平衡并将分区分配给另一个成员
- javascript - 使用 django 处理来自 React.js 表单的数据
- gradle - 如何在 Intellij 中为 Gradle 任务设置工作目录?
- firebase - 带有firebase实时数据库配置错误的flutter v2.2.1
- azure-functions - Azure Functions V3 进程外 - App Insights DI
- php - 在 foreach 循环 php 中使用 SQL 更新
- arrays - Mongodb - 如何只返回数组中的项目?
- javascript - 在非 React 构建网站中导入 React 组件的正确方法是什么?
- javascript - 删除 Supabase 中的关联记录
- npm - 在 Gitlab CI 中使用 yarn 和 npm