etl - 使用雪管将数据加载到雪花期间的数据聚合
问题描述
我正在评估雪花以报告用例。我正在考虑ETL的雪管。从 S3 摄取数据。S3 中的数据包含有关定期捕获的用户会话的信息。在雪花中,我想存储这些数据聚合。根据文档,雪花仅支持基本转换,并且在将数据从 S3 暂存复制到雪花中的表期间不支持分组和连接。
我是 ETL 和雪花的新手。我正在考虑的一种方法是将原始详细数据从暂存加载到雪花中的临时表。然后在临时表上运行聚合(分组和连接)以将数据加载到最终事实表中。这是实现复杂转换的正确方法吗?
解决方案
Snowflake 中的临时表只保留在创建它们的会话中。这意味着您将无法将 Snowpipe 指向它。
将 Snowflake 指向一个临时表来存储原始数据,而不是临时表,然后在一段时间后截断该表。这将降低成本。就个人而言,只要成本不太高,我会尽可能长时间地将数据保存在瞬态表中。这是为了考虑潜在的延迟数据等。
推荐阅读
- javascript - 如何在反应应用程序中集成谷歌登录身份验证
- store - 创建新帐户后无法验证 Google 开发者帐户的 ID
- firebase - 删除后生成相同的文档ID
- apache-kafka - Kafka Streams 没有获取 max.poll.records 和其他配置
- react-table - React-table - 自定义排序,以便某个值始终位于末尾
- r - 使用 purr:map 过滤和变异嵌套的鸢尾花数据集
- javascript - 想要迭代数组但增加事件的计数
- azure-devops - 如何使用管道变量部署应用服务作为要下载的工件?
- html - 无法获得与父级对齐的 100% 宽度
我在获得一张
width: 100%
与它的父 div 齐平的桌子时遇到了一些麻烦。出于某种原因,在表格的任一侧都可以看到小于 1 像素的间隙。我已经尝试将所有边距和填充设置为 0 以及设置 div 的最小和最大宽度,但它仍然不会使用所有可用内容。非常感谢有人可以为此提供任何帮助。这是表格的 css 和它的父 div 以及问题的一些图像:
.library
- docker - docker-compose with adminer & mariadb 在尝试数据库连接时显示 403