首页 > 解决方案 > AWS Glue 爬虫查询

问题描述

我设置了一些 AWS Glue 爬虫来爬取 S3 中的 CSV 以填充我在 Athena 中的表。我的场景和问题:我每天用更新版本替换 S3 中的 .csv 文件。我是否必须按计划再次运行现有的爬虫,以使用最新内容更新 Athena 上的表?还是仅在架构更改(例如添加其他列)时才需要运行爬虫?我只想确保我在 Athena 中的表始终按照更新后的 CSV 输出所有数据——我很少对表结构进行任何架构更改。如果仅在发生实际结构更改时才需要运行爬虫,那么我宁愿不那么频繁地运行它们

标签: amazon-web-servicesamazon-s3aws-glueamazon-athena

解决方案


当胶水爬虫运行时,会发生以下操作:

  • 它对数据进行分类以确定原始数据的格式、模式和相关属性
  • 将数据分组到表或分区中
  • 将元数据写入数据目录

Athena 引用在数据目录中创建的表的架构来查询指定的 S3 数据源。因此,如果模式保持不变,则可以减少爬虫运行的调度。

您还可以参考此处的文档以了解在 Athena 中使用胶水爬虫和 csv 文件:https ://docs.aws.amazon.com/athena/latest/ug/glue-best-practices.html


推荐阅读