azure - 有人能解释一下三角洲湖的“黄金”表是如何被推入数据仓库的吗?有没有办法从增量格式转换为数据框?
问题描述
我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。
谢谢!
解决方案
我自己还在学习这个,但这是我到目前为止所理解的。
青铜级别意味着来自源的数据。它应该保持不变,并简单地保存到青铜级别的增量表中。
银级是清洁的第一阶段。在这里,您可以进行数据治理、删除空值等。
黄金级别是应准备好供不同应用程序或 ML 平台使用的已清理数据的最终级别。
在每个步骤之间都有一个作业,应该在上一级的数据上运行以清理它并为下一步做准备。
在此处查看此链接以进行深入讨论:https ://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html
推荐阅读
- python - python解包如何使用单行实例化对象列表
- python - Python脚本在cronjob中失败
- r - 如果输入需要是循环中的列表怎么办:除了`for`之外的任何选项?
- python-3.x - 在python继承部分,为什么会出现错误或警告显示“与类中基方法的签名不匹配”
- python - 如何仅在列表的特定范围内进行 Python 插入排序?
- c# - Linq Where() 不工作按位运算符
- python - Python lab.find 问题中矩阵的数值范围
- appgallery-connect - 如何删除 AGC 上的应用草稿版本?
- python - 过滤多个列并将用户功能应用于 Pandas 中的所有列?
- angularjs - Ag-grid:设置“groupMultiAutoColumn = false”或“groupUseEntireRow = true”时,如何对多个级别的 RowGroups 进行排序?