首页 > 技术文章 > 浅谈数据仓库

siyueliuguang 2021-05-24 10:32 原文

概述

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。


分层

  • ODS(Operation Data Store):原始数据层,直接加载原始数据
  • DWD(Data Warehouse Detail):对ODS层数据进行清洗、维度退化、脱敏等
  • DWS(Data Warehouse Service):以DWD为基础,按天进行轻度汇总
  • DWT(Data Warehouse Topic):以DWS为基础,按主题进行汇总
  • ADS(Application Data Store):为各种统计报表提供数据

示例

数据仓库与数据集市区别

数据仓库 数据集市
数据来源 遗留系统、OLTP系统、外部数据 数据仓库
范围 企业级 部门级或工作组级
主题 企业主题 部门或特殊的分析主题
数据粒度 最细 较粗
数据结构 规范化结构(第3范式) 星型模型、雪花模型、星座模型
历史数据 大量的历史数据 适度的历史数据
优化 处理海量数据、数据索引 便于访问和分析、快速查询

OLTP与OLAP

  • 联机事务处理OLTP(On-Line Transaction Processing)
  • 联机分析处理OLAP(On-Line Analytical Processing)
对比属性 OLTP OLAP
独特性 每次查询只返回少量数据 对大量数据进行汇总
写特性 随机、低延时写入用户的输入 批量导入
使用场景 用户、JavaEE项目 内部分析师、为决策提供支持
数据表征 最新数据状态 随时间变化的历史状态
数据规模 GB TB、PB

模型结构

  • 星型模型:以事实表为中心,所有的维度表直接连接在事实表上,数据组织直观,执行效率高
  • 雪花模型:维度表可以拥有其他维度表的星型模型
  • 星座模型:基于多张事实表的星型模型

建模方法

  • 范式建模法:第三范式E-R
  • 维度建模法:事实表与维度表

表类型

增量表 全量表 快照表 拉链表
数据 新增 全部 全部 终态(相当于去重的快照表)
分区

推荐阅读