首页 > 解决方案 > 将 JSON 转换为 Parquet 并将对象分类到文件夹中

问题描述

我对雪花的经验为 0,所以请多多包涵。目前,我们有一个系统,我们使用存储在 S3 存储桶(我们称之为存储桶 A)中的 AWS Kinesis 从 iWatch 以 JSON 形式收集陀螺仪和加速度计数据,然后我们使用 AWS Glue 将这些 JSON 文件转换为 parquet 文件并划分基于其各自传感器的数据并将数据存储在 2 个不同的文件夹(加速度计和陀螺仪文件夹)中。这些转换后的数据存储在一个新的存储桶中(我们称之为存储桶 B)。现在,是否可以让 Snowflake 完全执行 AWS Glue 正在执行的操作,并将转换和转换的数据存储在 Snowflake 中(删除存储桶 B)?谢谢

标签: amazon-web-servicesaws-gluesnowflake-cloud-data-platform

解决方案


为了建立一个完整的答案:

  • 是的,Snowflake 存储数据。
  • 是的,Snowflake 以类似于 Parquet 的格式转换数据,但与 Parquet 不同的是,您只能使用 Snowflake 访问它。
  • 是的,Snowflake 将取代存储桶 B。
  • 是的,Snowflake Tasks 或 Snowpipe 可以取代 AWS Glue。

看看https://docs.snowflake.com/en/user-guide/data-load-s3.html


推荐阅读