首页 > 解决方案 > AWS Glue 可以爬取 Delta Lake 表数据吗?

问题描述

根据 Databricks 的文章,可以将 delta Lake 与 AWS Glue 集成。但是,我不确定是否也可以在 Databricks 平台之外执行此操作。有人做过吗?另外,是否可以使用 Glue 爬虫添加 Delta Lake 相关元数据?

标签: apache-sparkamazon-s3aws-gluedelta-lake

解决方案


这是不可能的。虽然您可以在 databrics 平台之外爬取 S3 增量文件,但您不会在表中找到数据。

根据文档,它说如下:

警告

不要在位置上使用 AWS Glue Crawler 来定义 AWS Glue 中的表。Delta Lake 维护着多个版本的表对应的文件,查询所有被 Glue 爬取的文件会产生不正确的结果。


推荐阅读