第一步:调研
1、业务调研:与业务人员座谈,梳理业务过程,输出业务流程图及初步划分出dwd层的主题域
2、需求调研:梳理过去、现在及将来的数据需求和BI需求,输出数仓app层主题域
3、数据调研:获取每个数据源、数据结构说明书,整理数据字典,划分每个表的业务线,同时确定每个库表ods层的主题域
第二步:划分主题域
确定主题域:通过业务调研、需求调研、数据调研三部整合,相互补充与舍弃,概况和抽象,最终确定数仓主题域v1.0
第三步:构建总线矩阵、维度建模
总线矩阵:把总线架构列表形成矩阵的形式
行:表示业务处理过程,即事实
列:表示一致性维度
在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)
维度建模:星型模型,四部建模:选择业务过程、确定粒度、确定维度、确定事实
第四步:设计数仓分层架构
ods
dwd
dws
ads
第五步:设计数仓规范
命名、模型规范、开发规范、流程规范、模型设计
设计规范:逻辑架构、技术架构、分层设计、主题划分、方法论
命名规范:各层级命名、任务命名、表命名、字段命名
模型规范:维度建模、维度退化、元数据管理
开发规范:脚本注释、字段别名、编码规范、脚本格式、数据类型、缩写规范
流程规范:需求流程、工程流程、上行流程、调度流程、代码review
模型设计包含概念模型、逻辑模型、物理模型
概念模型:概念模型是确定领域实体属性关系等,使用E-R图表示,E-R图主要是由实体(矩形)、属性(椭圆形)和联系(菱形)三个要素构成的。
逻辑模型:把概念模型进行进一步的分解,即E-R图向关系模型的转换
E-R图向关系模型的转换是要解决如何将实体和实体间的联系转换为关系,并确定这些关系的属性和码。这种转换一般按下面的原则进行:1)一个实体转换为一个关系,实体的属性就是关系的属性,实体的码就是关系的码。2)一个联系也转换为一个关系,联系的属性及联系所连接的实体的码都转换为关系的属性;说白了就是E-R图中实体、属性、联系这三者都转换成实体,并且把实体的具体属性都罗列出来
物理模型:把逻辑模型转换成数据库能识别的语言,包含表名、字段名、字段类型、主键、外键等
第六步:数据治理
数据治理:完整性、准确性、一致性、及时性
主键监控、表数据量及波动监控、重要字段的非孔监控、重要枚举字段的离散值监控、指标值波动监控、业务规则监控等
元数据管理:技术元数据和业务元数据
技术元数据:metastore、数据字典、系统库、调度日志、作业依赖、血缘关系等
业务元数据:业务规则、指标术语、行业规范等
数据审计:数据权限和数据安全
数据权限:用户授权、用户认证、权限管理、角色管理、定期授权审查
数据安全:数据存储安全(外部表、跳板机)、数据使用安全权限等、敏感数据发现、脱敏、权限、访问监控