首页 > 解决方案 > 如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫

问题描述

我的文件夹结构如下:

s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data

... 很快

我想排除所有日期和时间戳模式,只抓取当前/数据文件夹。如何实现?

标签: amazon-web-servicesamazon-s3amazon-redshiftaws-glue

解决方案


考虑到您当前的爬虫包含路径设置为爬取s3://foo位置,那么您可以在爬虫设置中使用排除模式s3://foo/tabel*/2021*/**配置,如下所示:如果从 2021 年开始,它将跳过所有表格的所有文件和文件夹...

同样,您可以在本节中添加其他glob 模式以跳过其他文件和文件夹。

在此处输入图像描述

为了更好地理解,您可以在此处参考包含和排除模式部分


推荐阅读