amazon-web-services - 将 JSON 转换为 Parquet 并将对象分类到文件夹中
问题描述
我对雪花的经验为 0,所以请多多包涵。目前,我们有一个系统,我们使用存储在 S3 存储桶(我们称之为存储桶 A)中的 AWS Kinesis 从 iWatch 以 JSON 形式收集陀螺仪和加速度计数据,然后我们使用 AWS Glue 将这些 JSON 文件转换为 parquet 文件并划分基于其各自传感器的数据并将数据存储在 2 个不同的文件夹(加速度计和陀螺仪文件夹)中。这些转换后的数据存储在一个新的存储桶中(我们称之为存储桶 B)。现在,是否可以让 Snowflake 完全执行 AWS Glue 正在执行的操作,并将转换和转换的数据存储在 Snowflake 中(删除存储桶 B)?谢谢
解决方案
为了建立一个完整的答案:
- 是的,Snowflake 存储数据。
- 是的,Snowflake 以类似于 Parquet 的格式转换数据,但与 Parquet 不同的是,您只能使用 Snowflake 访问它。
- 是的,Snowflake 将取代存储桶 B。
- 是的,Snowflake Tasks 或 Snowpipe 可以取代 AWS Glue。
看看https://docs.snowflake.com/en/user-guide/data-load-s3.html
推荐阅读
- python - 更改 kivymd 中 TwoLineAvatarIconListItem 的颜色
- python - 更改代码以允许超过 3 个堆叠条
- kubernetes - OCP CronJob 需要哪些 API
- airflow - Airflow 任务可以在运行时动态生成 DAG 吗?
- jupyter-notebook - 当磁盘上的文件发生更改时,如何让 jupyter 自动恢复
- android - TextToSpeech.addEarcon() 和 TextToSpeech.addSpeech() 之间的区别
- python - 使用 Python 从 xml url 获取数据
- javascript - 正则表达式包括所有直到关闭的 html 标记
- python - 将数据帧索引从字符串 mmm/dd 转换为日期时间
- android - 从另一个挂起函数调用挂起函数时,获取“只能在协程主体内调用挂起函数”