首页 > 解决方案 > 使用 AWS Glue 爬虫进行智能采样

问题描述

我的 s3 存储桶上有几张桌子。这些表在内存大小和文件数量上都很大,它们存储在 JSON(次优,我知道)中并且有很多分区。

现在我想启用 AWS Glue 数据目录和 AWS Glue 爬虫,但是我对遍历所有数据的爬虫的价格感到害怕。

架构不会经常更改,因此无需遍历 S3 上的所有文件。

默认情况下,Crawlers 会遍历所有文件吗?是否可以配置一个更智能的采样策略,只查看部分文件而不是所有文件?

标签: amazon-web-servicesamazon-s3aws-glueaws-glue-data-catalog

解决方案


根据您的存储桶结构,您可能只使用排除路径并将爬虫指向您想要爬取的特定前缀。如果分区是 hive 风格的分区,那么你可以利用 Athena 执行 msck repair table 来添加分区。或者,您可以在 Athena 中手动创建表并运行 msck repair,如果您有很多分区并且文件很大,那么这势必需要很长时间。


推荐阅读