概述
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
分层
- ODS(Operation Data Store):原始数据层,直接加载原始数据
- DWD(Data Warehouse Detail):对ODS层数据进行清洗、维度退化、脱敏等
- DWS(Data Warehouse Service):以DWD为基础,按天进行轻度汇总
- DWT(Data Warehouse Topic):以DWS为基础,按主题进行汇总
- ADS(Application Data Store):为各种统计报表提供数据
示例
数据仓库与数据集市区别
|
数据仓库 |
数据集市 |
数据来源 |
遗留系统、OLTP系统、外部数据 |
数据仓库 |
范围 |
企业级 |
部门级或工作组级 |
主题 |
企业主题 |
部门或特殊的分析主题 |
数据粒度 |
最细 |
较粗 |
数据结构 |
规范化结构(第3范式) |
星型模型、雪花模型、星座模型 |
历史数据 |
大量的历史数据 |
适度的历史数据 |
优化 |
处理海量数据、数据索引 |
便于访问和分析、快速查询 |
OLTP与OLAP
- 联机事务处理OLTP(On-Line Transaction Processing)
- 联机分析处理OLAP(On-Line Analytical Processing)
对比属性 |
OLTP |
OLAP |
独特性 |
每次查询只返回少量数据 |
对大量数据进行汇总 |
写特性 |
随机、低延时写入用户的输入 |
批量导入 |
使用场景 |
用户、JavaEE项目 |
内部分析师、为决策提供支持 |
数据表征 |
最新数据状态 |
随时间变化的历史状态 |
数据规模 |
GB |
TB、PB |
模型结构
- 星型模型:以事实表为中心,所有的维度表直接连接在事实表上,数据组织直观,执行效率高
- 雪花模型:维度表可以拥有其他维度表的星型模型
- 星座模型:基于多张事实表的星型模型
建模方法
- 范式建模法:第三范式E-R
- 维度建模法:事实表与维度表
表类型
|
增量表 |
全量表 |
快照表 |
拉链表 |
数据 |
新增 |
全部 |
全部 |
终态(相当于去重的快照表) |
分区 |
有 |
无 |
有 |
有 |