apache-spark - AWS Glue 可以爬取 Delta Lake 表数据吗?
问题描述
根据 Databricks 的文章,可以将 delta Lake 与 AWS Glue 集成。但是,我不确定是否也可以在 Databricks 平台之外执行此操作。有人做过吗?另外,是否可以使用 Glue 爬虫添加 Delta Lake 相关元数据?
解决方案
这是不可能的。虽然您可以在 databrics 平台之外爬取 S3 增量文件,但您不会在表中找到数据。
根据文档,它说如下:
警告
不要在位置上使用 AWS Glue Crawler 来定义 AWS Glue 中的表。Delta Lake 维护着多个版本的表对应的文件,查询所有被 Glue 爬取的文件会产生不正确的结果。
推荐阅读
- python - 对 NetworkX 算法的 Memgraph 支持
- php - Laravel Livewire - 获取所有复选框值
- reactjs - 期望找到一个有效的目标反应 dnd
- c# - 如何将模板对象添加到 C# Frame 模板中
- python - 有没有办法让librosa或python上的其他方法淡出
- c# - 为什么 ServiceInstaller 在我的“WPF App(.NET Framework)”项目中不可用?
- android - 打开EditText的键盘时DialogFragment消失
- python - 如何在 Python 中基于 id 合并 3 个列表?
- python - 使用 imageAI 进行物体检测
- azure-functions - 缺少将 CloudBlockBlob 作为输入触发器的元数据