amazon-web-services - 使用 AWS Glue 爬虫进行智能采样
问题描述
我的 s3 存储桶上有几张桌子。这些表在内存大小和文件数量上都很大,它们存储在 JSON(次优,我知道)中并且有很多分区。
现在我想启用 AWS Glue 数据目录和 AWS Glue 爬虫,但是我对遍历所有数据的爬虫的价格感到害怕。
架构不会经常更改,因此无需遍历 S3 上的所有文件。
默认情况下,Crawlers 会遍历所有文件吗?是否可以配置一个更智能的采样策略,只查看部分文件而不是所有文件?
解决方案
根据您的存储桶结构,您可能只使用排除路径并将爬虫指向您想要爬取的特定前缀。如果分区是 hive 风格的分区,那么你可以利用 Athena 执行 msck repair table 来添加分区。或者,您可以在 Athena 中手动创建表并运行 msck repair,如果您有很多分区并且文件很大,那么这势必需要很长时间。
推荐阅读
- r - ggplotly 反应图显示在 RStudio 的查看器面板上,但没有显示在闪亮的应用程序中
- javascript - jQuery droppable 不适用于某些 div
- r - rlang:将多个组与...传递给gather()
- .net-core - 使用 Azure AAD B2C 和 DotNetCore 进行 SAML 身份验证
- python - 微电网中电池调度的约束优化
- c - 子进程执行顺序似乎错误,但有效
- javascript - 创建多选复选框
- winapi - 如何从应用程序启动windows服务
- bash - 如何在bash中循环嵌套循环而不重复?
- python - 如何将 Python 列表中的后续数字连接成双(或更多)数字