首页 > 解决方案 > 如何使用一个位置路径从多个文件夹创建多个表,而雅典娜也应该使用胶水爬虫处理它

问题描述

我试过这个没有达到所需的结果 - 我在 s3 存储桶的文件夹中有多个 CSV 文件,但是当它为它创建多个表时,Athena 返回零结果,所以我为每个文件创建了一个不同的文件夹,然后它工作正常。问题 - 但如果将来会添加更多文件夹,那么我必须去爬虫,并且必须为每个新添加的文件夹添加一个新的位置路径,所以有什么方法可以自动或其他方式来做到这一点。我正在使用胶水爬虫和 s3 存储桶雅典娜在多个 CSV 文件上运行查询。

标签: amazon-web-servicesamazon-s3aws-glueamazon-athenaaws-glue-data-catalog

解决方案


一般来说,一个表需要它的所有文件都在一个目录中,并且没有其他文件在该目录中。

但是,有一种机制可以创建仅包含特定文件的表。您可以在此答案的第二部分中阅读更多相关信息:Partition Athena query by S3 created date(在水平规则之后向下滚动一点)。您还可以在 S3 Inventory 文档中找到一个示例:https ://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html


推荐阅读