首页 > 解决方案 > 可以使用 Terraform 添加到 AWS Glue Crawler 的 s3_targets / 数据存储是否存在最大限制?

问题描述

我有几千个表提取 (CSV) 存储在我需要抓取的 S3 存储桶中。不需要分区,每个文件夹都应该被视为一个单独的表。为了防止 Glue 强制对相似表进行分区,我需要将每个文件夹作为单独的数据存储包含在内。

使用控制台添加新的数据存储很乏味,因为您必须一次添加一个,因此我使用 Terraform 来执行此操作。

例子:

resource "aws_glue_crawler" "multi_test" {
  database_name = "test"
  name          = "multi_test"
  role          = "${data.aws_iam_role.GlueServiceRole.arn}"

  s3_target {
    path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00001"
  }

  s3_target {
    path = "s3://${aws_s3_bucket.test_bucket.bucket}/data_in/test/multi/table00002"
  }

  ...

到目前为止,我已经使用多达 250 个样本表对此进行了测试,但想知道在 Terraform 或 AWS 中我可以添加的数量是否有限制?有没有人用 1000 多个单独的 s3_targets/数据存储尝试过这个?

非常感谢。

标记

标签: terraformaws-glueterraform-provider-aws

解决方案


推荐阅读