amazon-web-services - Amazon S3 清单文件是否支持 Parquet 格式?
问题描述
根据此 AWS 文档,Amazon S3 似乎不支持清单文件中的 parquet 格式,但我觉得这很难相信,因为这是一种非常常见的文件格式,对于 Athena/Redshift,您应该使用我的 parquet 格式理解。这是另一篇文档,它引用了与 Redshift 和 parquet 文件格式相关的 S3 清单文件,但我不太确定它的确切含义https://docs.aws.amazon.com/redshift/latest/dg/loading-数据文件-使用-manifest.html。
我只是想在我的一个 S3 存储桶中使用一些镶木地板文件在 Amazon QuickSight 中创建一个数据集。我尝试在清单中省略 globalUploadSettings 字段,并且能够将数据拉入,但 QuickSight 不知道它是什么类型的文件,因此它只显示带有一堆 � 字符的信息。
我目前拥有的清单:
{
"fileLocations": [
{
"URIPrefixes": [
"https://s3.amazonaws.com/myBucket/myFolderWithData/"
]
}
]
}
解决方案
AWS S3 在 manifest 文件中不支持 parquet 格式,但您可以使用 Athena 作为 Dataset 来支持 parquet 格式。
导入文件数据
您可以使用 Amazon S3 或本地(本地)网络中的文件作为数据源。QuickSight 支持以下格式的文件:
CSV and TSV – Comma-delimited and tab-delimited text files
ELF and CLF – Extended and common log format files
JSON – Flat or semistructured data files
XLSX – Microsoft Excel files
QuickSight 支持 UTF-8 文件编码,但不支持 UTF-8(带 BOM)。
Amazon S3 中使用 zip 或 gzip ( www.gzip.org ) 压缩的文件可以按原样导入。如果您对 Amazon S3 中的文件使用了其他压缩程序,或者如果文件在您的本地网络上,请在导入它们之前删除压缩。
https://docs.aws.amazon.com/quicksight/latest/user/supported-data-sources.html
推荐阅读
- html - 弹性盒项目中的文本导致弹性盒项目展开
- mysql - 如何在 MYSQL 中编写查询以避免 CSV 中的 qoutes
- hibernate - Spring 应用程序在生成用于测试的 schmea 时报告“字段 'id' 没有默认值”
- javascript - html 在 fullcalender 版本 5 中被视为文本
- tensorflow - 当我尝试使用我的 GPU 时调用 model.fit() 时,Python 3.8.8 Jupyter 笔记本内核死机
- nginx - Next.js 直接从 url 更改不起作用
- r - 在对逻辑套索回归进行重复交叉验证后,对 predict() 函数使用 type = "raw" 选项会返回空向量
- google-cloud-platform - 在谷歌云中寻找 REST API (s) 以提取部署在 kubernetes 中的服务器的运行状况、cpu 负载等信息
- javascript - 状态未在不同组件中更新
- java - 如何在 Android Java 中关闭 Imageview 的抗锯齿功能