amazon-web-services - AWS Glue 爬虫查询
问题描述
我设置了一些 AWS Glue 爬虫来爬取 S3 中的 CSV 以填充我在 Athena 中的表。我的场景和问题:我每天用更新版本替换 S3 中的 .csv 文件。我是否必须按计划再次运行现有的爬虫,以使用最新内容更新 Athena 上的表?还是仅在架构更改(例如添加其他列)时才需要运行爬虫?我只想确保我在 Athena 中的表始终按照更新后的 CSV 输出所有数据——我很少对表结构进行任何架构更改。如果仅在发生实际结构更改时才需要运行爬虫,那么我宁愿不那么频繁地运行它们
解决方案
当胶水爬虫运行时,会发生以下操作:
- 它对数据进行分类以确定原始数据的格式、模式和相关属性
- 将数据分组到表或分区中
- 将元数据写入数据目录
Athena 引用在数据目录中创建的表的架构来查询指定的 S3 数据源。因此,如果模式保持不变,则可以减少爬虫运行的调度。
您还可以参考此处的文档以了解在 Athena 中使用胶水爬虫和 csv 文件:https ://docs.aws.amazon.com/athena/latest/ug/glue-best-practices.html
推荐阅读
- tableau-api - 获取相邻的列字?
- python - 在 python 中计算两个有符号 64 位整数之间的 XOR 时出现意外行为
- authentication - 使用客户端感知 GRPC 是个好主意吗?
- python - 自我未定义
- python - 如何在python中正确接收带有语音识别的麦克风输入
- html - 如何重叠包含形状的元素
- javascript - ¿ 如何将未定义的元素过滤到 React 中的数组中?
- python - 如何在Python中获得等于结果数的列表的所有数学组合
- node.js - Express.JS req.body 正在将 _locals: [Object: null prototype] {} 记录到控制台
- java - 如何在 Anylogic 8.7 中使用变量作为从 darabase 检索数据的条件