目前先只总结部分基础概念,后在陆续整理
数据仓库
是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合.
实施建设数据仓库的指导原则:
1,简化需求收集和设计
2,支持业务和It用户写作
提供一个全局的术语表(数据字典),用于写作并根据他们集体业务视角在去调整
3,避免代价高昂的低级错误和返工
4,识别匹配信息,创建单一视图
5,使用最快,最具伸缩性的方法进行转换和发布
6,通过信息服务扩展信息可访问性
事实表
凡事用来定量分析的都称之为事实表。所有的数据都可以存入事实表。
事实表的特点:
1,数据量大
2,粒度细
3,冗余
维度表
凡事用于分组的数据都是维度。一般是group by 的字段
维度表特点:
数据量小
需要全局定义一致
注意处理缓慢变化维度
整个数据仓库的根本,维度表出错,数据仓库就意味着失败。
缓慢变化维度
总共有8种处理方式。
能够支持方便的分析历史变化情况
缓慢变化维度-SCD1:重写
缓慢变化维度- SCD2:增加新行
缓慢变化维度- SCD3:增加新属性保留旧属性
缓慢变化维度- SCD4:增加微型维度
缓慢变化维度-其它4中处理方式
数据仓库中如何使用缓慢变化维技术- https://www.toutiao.com/i6630002750304289288
键-代理键
特点:
无业务含义,当业务发生变更,不会给数据仓库带来灾难性后果。所有的数据通过代理键进行关联。
事实表是否需要代理键:不需要
维度表是否需要代理键:需要
键-其它
候选键:包含主键 和可选键 ,主键可以作为其它表的外键。
主键的:生成方式分为两类:自然键和代理键。
自然键:具有一定业务含义,且标示身份,一行数据。如员工编号。
持久键:保持永久性不会发生变化。有时也被叫做超自然持久键。
数据仓库实施风险
1,时间周期长
2,高层意志不坚决
3,业务理解不透彻,狭隘
4,仓库执行人执行力推动力不够
5,数据质量不能保障
6,设计缺陷,造成返工
数据僧 历史文章
数据仓库-概述-读书笔记一
数据仓库-DW/BI架构对比-读书笔记二
数据仓库-事实表/维度表技术-读书笔记三
维度处理-数据仓库-读书笔记(四)
数据仓库-高级事实表技术-读书笔记五
数据仓库-高级维度表技术-读书笔记六
数据仓库,零售业务举例,维度模型设计4步骤,读书笔记(七)
数据仓库-零售业务举例维度表设计细节-读书笔记(八)
数据仓库-零售业务举例如何提高仓库扩展能力-读书笔记(九)
数据仓库-零售业务中库存如何设计-读书笔记(十)
如何使用缓慢变化维技术
数据仓库-订单管理应该注意那些
ETL中前期数据分析、变化数据探测,数据获取 注意事项
数据僧 参考资料
数据仓库工具箱
如果您觉得我用心了,觉得您有所收获,麻烦关注下我吧,您的关注就是我的动力,因为有你,我就不是一个人在前行。