amazon-web-services - 如何使用一个位置路径从多个文件夹创建多个表,而雅典娜也应该使用胶水爬虫处理它
问题描述
我试过这个没有达到所需的结果 - 我在 s3 存储桶的文件夹中有多个 CSV 文件,但是当它为它创建多个表时,Athena 返回零结果,所以我为每个文件创建了一个不同的文件夹,然后它工作正常。问题 - 但如果将来会添加更多文件夹,那么我必须去爬虫,并且必须为每个新添加的文件夹添加一个新的位置路径,所以有什么方法可以自动或其他方式来做到这一点。我正在使用胶水爬虫和 s3 存储桶雅典娜在多个 CSV 文件上运行查询。
解决方案
一般来说,一个表需要它的所有文件都在一个目录中,并且没有其他文件在该目录中。
但是,有一种机制可以创建仅包含特定文件的表。您可以在此答案的第二部分中阅读更多相关信息:Partition Athena query by S3 created date(在水平规则之后向下滚动一点)。您还可以在 S3 Inventory 文档中找到一个示例:https ://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html
推荐阅读
- list - Haskell中的乱序列表迭代
- imagej - 如何在斐济或 ImageJ 中安装工具集
- haskell - Haskell 预期类型:[t0 a0] 实际类型:[a]
- ruby-on-rails - 为在 Rails 中签入的每个用户生成一个表单
- javascript - 使用 RegEx 将孟加拉数字(数字)标记为数字标记时出错
- javascript - 我可以检查是否从按钮的 onclick 属性调用了 JavaScript 函数吗?
- google-cloud-platform - 连接到安装在 ComputeEngine 上的 MySQL 数据库(点击部署)
- php - PHP 8 调用未定义函数 Illuminate\Encryption\openssl_cipher_iv_length()
- gtk - 当我使用 Glade 运行 GTK 时,我收到以下警告 - 找不到信号处理程序“on_window_main_destory”。你用 -rdnamic 编译了吗?
- python - 密钥 - 设置环境变量 PowerShell (Windows)