首页 > 解决方案 > Amazon S3 清单文件是否支持 Parquet 格式?

问题描述

根据此 AWS 文档,Amazon S3 似乎不支持清单文件中的 parquet 格式,但我觉得这很难相信,因为这是一种非常常见的文件格式,对于 Athena/Redshift,您应该使用我的 parquet 格式理解。这是另一篇文档,它引用了与 Redshift 和 parquet 文件格式相关的 S3 清单文件,但我不太确定它的确切含义https://docs.aws.amazon.com/redshift/latest/dg/loading-数据文件-使用-manifest.html

我只是想在我的一个 S3 存储桶中使用一些镶木地板文件在 Amazon QuickSight 中创建一个数据集。我尝试在清单中省略 globalUploadSettings 字段,并且能够将数据拉入,但 QuickSight 不知道它是什么类型的文件,因此它只显示带有一堆 � 字符的信息。

我目前拥有的清单:

{
    "fileLocations": [
        {
            "URIPrefixes": [
                "https://s3.amazonaws.com/myBucket/myFolderWithData/"
            ]
        }
    ]
}

标签: amazon-web-servicesamazon-s3amazon-quicksight

解决方案


AWS S3 在 manifest 文件中不支持 parquet 格式,但您可以使用 Athena 作为 Dataset 来支持 parquet 格式。

导入文件数据

您可以使用 Amazon S3 或本地(本地)网络中的文件作为数据源。QuickSight 支持以下格式的文件:

CSV and TSV – Comma-delimited and tab-delimited text files

ELF and CLF – Extended and common log format files

JSON – Flat or semistructured data files

XLSX – Microsoft Excel files

QuickSight 支持 UTF-8 文件编码,但不支持 UTF-8(带 BOM)。

Amazon S3 中使用 zip 或 gzip ( www.gzip.org ) 压缩的文件可以按原样导入。如果您对 Am​​azon S3 中的文件使用了其他压缩程序,或者如果文件在您的本地网络上,请在导入它们之前删除压缩。

https://docs.aws.amazon.com/quicksight/latest/user/supported-data-sources.html


推荐阅读