amazon-web-services - 如何在抓取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫
问题描述
我的文件夹结构如下:
s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data
... 很快
我想排除所有日期和时间戳模式,只抓取当前/数据文件夹。如何实现?
解决方案
考虑到您当前的爬虫包含路径设置为爬取s3://foo
位置,那么您可以在爬虫设置中使用排除模式s3://foo/tabel*/2021*/**
配置,如下所示:如果从 2021 年开始,它将跳过所有表格的所有文件和文件夹...
同样,您可以在本节中添加其他glob 模式以跳过其他文件和文件夹。
为了更好地理解,您可以在此处参考包含和排除模式部分
推荐阅读
- apache-kafka - Kafka JMX 指标的时间窗口是多少?
- java - 公式中的字符串文字不能大于 255 个字符 ascii
- authentication - 如何将 Auth0 登录页面授权 URL 配置为 Angular 应用程序中的默认登录页面?
- javascript - 如何将值从 javascript 传递到 html 表单上的 php?
- java - 将 Oracle JRE 与 OpenJdk 一起使用是否合法?
- javascript - 连接数组项
- swift - 无法转换“结果”类型的值' 关闭结果类型 'Result
' - ruby-on-rails - 在rails的数据库中保存表单数据(文本字段)
- perl - 使用perl读取电子表格中的时间格式数据
- java - 如何发送数组列表
到片段适配器