amazon-web-services - 如何监控胶水爬虫执行统计信息?
问题描述
我AWS Glue
用来做数据ETL。我找不到glue crawler
在 AWS 上监控执行统计数据的方法。我知道如何监控像这个文档这样的胶水作业:https ://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html 。但我想知道是否有类似的方法来检查glue crawler
执行?
我可以检查爬虫的日志,Cloudwatch
但它不是很可读。我很难弄清楚在指定时间段内发生了多少次调用。
解决方案
我向 AWS 支持中心提出了同样的问题。这是答案:
据我了解,Glue 爬虫不会发布 CloudWatch 指标以用于执行和您希望监控的统计信息,但是 Glue 爬虫能够将日志发布到 CloudWatch 日志组和日志流。根据这些日志事件消息,您可以创建一个指标过滤器 [1] 以匹配特定的过滤器模式,并生成您自己的指标来监控和警报。例如,如果指标过滤器检测到过滤器模式“Crawler 已完成运行并处于 READY 状态”,它将向您的自定义命名空间指标发布一个值。以下是创建指标过滤器的一些步骤:
1) Open the CloudWatch Log Groups console
2) Select the Glue crawler log group
3) Select Metric filters, choose Create metric filter
4) In Filter pattern, enter a pattern that you want to match in the log streams, ie: "Crawler has finished running and is in state READY", then choose Next
4a) You can test your filter pattern against a log stream or by manually specifying log event messages
5) Enter a filter name, enter a customer metric namespace, metric name, metric value. The metric value while be published on the metric, ie: 1, then choose Next
6) Review the metric filter configuration and choose Create metric filter
CloudWatch Events 能够根据 Glue 爬虫状态更改调用目标,例如,如果爬虫状态更改为失败,则可以调用 SNS 主题目标并向您发送电子邮件。以下是创建 CloudWatch 事件的一些步骤:
1) Open the CloudWatch Rules console
2) Choose Create rule
3) In Service Name, select Glue, in Event Type select Glue Crawler State Change
4) Choose Specific state(s) and choose Failed
5) Add a Target, for example SNS Topic, choose Configure details
6) Enter a Rule name and choose Create rule
享受你一天的剩余时间。
推荐阅读
- makefile - 无法找到或加载主类 org.antlr.Tool
- html - 有没有办法找出网页上的按钮是否有热键?
- javascript - Vime.js(角度)自定义播放器设置在移动设备上回退到默认值,但在桌面上工作
- java - Eclipse 2021-06 更新:找不到我的工作区
- go - 使用 dbus-codegen-go 导出 dbus 服务
- reactjs - 在 ReactJS 中,如何拦截(仅)双击?
- php - php 与下划线完全匹配的字符串
- javascript - 点击元素上的传单问题在图层刷新时消失
- r - 使用 R 中的匹配子类计算两个国家之间的相关性
- php - PHP Sessions 出现问题以使其回显到我的 html 页面