首页 > 解决方案 > 尝试通过 Athena 查询位于 S3 中的 VPC 流日志

问题描述

  1. 我创建了一个 S3,指向 S3 的 VPC 流日志
  2. 创建 Athena,添加数据库和表 - 选择数据格式为 PARQUET
  3. 流日志正在生成并存储在 S3 中。

我触发了一个简单的 SQL 查询并得到以下结果。

您的查询有以下错误:HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://.../b22aac6f-bd90-4b1b-ba4f-7bb72ab7447a.txt (offset=0, length=32): s3://。 ../b22aac6f-bd90-4b1b-ba4f-7bb72ab7447a.txt 不是 Parquet 文件。预期尾部的幻数 [80, 65, 82, 49] 但发现 [104, 101, 110, 97] 此查询针对“vpc_flow_logs_for_athena”数据库运行,除非查询限定。请在我们的论坛上发布错误消息或联系客户支持,查询 ID:75ede011-ca86-4455-b0cd-ff6917a05b9c。——</p>

有人可以在这里帮助雅典娜吗?

雅典娜错误

标签: amazon-s3parquetaws-glueamazon-athenaamazon-vpc

解决方案


通过查看错误消息,很明显表存储被定义为镶木地板,尽管基础数据是一个文本文件,在这种情况下是s3://.../b22aac6f-bd90-4b1b-ba4f-7bb72ab7447a.txt.

请参阅这篇文章博客,其中解释了如何使用 Athena 查询 VPC Flow 日志。


推荐阅读