首页 > 解决方案 > Aws Glue Crawler 在第一次爬网后未更新表

问题描述

我正在添加一个镶木地板格式的新文件,该文件由我的 S3 文件夹中的 Glue Databrew 创建。新文件与前一个文件具有相同的架构。但是,当我第二次运行 Crawler 时,它既不会更新表,也不会在数据目录中创建新表。此外,当我将两个文件一起抓取时,它们都被添加了。

日志文件提供以下信息:
INFO : Created partitions with values [[New file name]] for table
BENCHMARK : Finished writing to Catalog

我尝试过使用和不使用“为每个 S3 路径创建一个模式”。但是爬虫没有用新文件更新表。我很快就会每天添加新文件来进行分析。有什么解决办法吗?

标签: amazon-web-servicesaws-glue-data-catalog

解决方案


在我看来,解决此问题的最佳方法是直接使用 AWS DataBrew 输出到 Data Catalog。数据目录可以由爬虫或由 DataBrew 直接更新,但建议的做法是您使用其中任何一种机制,而不是同时使用这两种机制。

您可以尝试将输出作为数据目录运行作业并让 Databrew 管理您的目录吗?它应该使用正确的数据/文件更新您的目录表。


推荐阅读