摘要: 简单的拉链表设计
背景信息:
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:
数据量比较大;
表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态、手机号码等等;
需要查看某一个时间点或者时间段的历史快照信息。(比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等)
变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;
综上所述:引入’拉链历史表’,既能满足反应数据的历史状态,又可以最大程度的节省存储。
(备注:在阿里巴巴内部很大程度上是基于存储换计算来提供开发的效率及易用性,因为在当今,存储的成本远低于CPU和内存。因此在阿里巴巴内部会采用快照的方式将每日的全量数据进行快照,同时也会通过极限存储的方式,压缩率高,在合适的场景下,约能压缩为原始数据的1/30。)
Demo数据
以下只是demo如何在MaxCompute中实现拉链表,所以是基于一些假设:
同一天中同一订单只有一个状态发生;
基于20150821及之前的数据并没有同一个订单有两个状态的最简单场景模拟;
且数据源在阿里云RDS for Mysql中。且表明为orders。
20150821以及之前的历史订单数据:
20150822订单数据:
20150823的订单数据:
实现思路
全量初始化:将2015-08-21及以前的全量历史数据通过全量方式同步至ODS并刷进DW层。
增量更新:将2015-08-22、2015-08-23的全天增量数据以增量方式刷入下游数据。
全量初始化
创建节点任务:数据同步
选择调度类型:手动调度
配置数据同步任务:Mysql:Orders–>ODPS:ods_orders_inc_d
where条件配置:modifiedtime <= ‘20150821’
分区值dt=20150821
提交调度系统,待数据同步任务执行成功后,再将ODS数据刷入DW。
创建SQL脚本:
INSERToverwriteTABLEdw_orders_his_dSELECTorderid,createtime,modifiedtime,o_status,createtimeASdw_start_date,'99991231'ASdw_end_dateFROMods_orders_inc_dWHEREdt ='20150821';
数据如下:
通过以上步骤可以将2015-08-21及以前的历史全量数据一次性刷入DW和ODS中。
增量抽取并生成拉链表
创建工作流任务并选择周期性调度。
依次拖入数据同步节点任务和SQL任务。
在数据同步任务中where条件配置为:modifiedtime=bdp.system.bizdate目标表odsordersincd分区配置为dt={bdp.system.bizdate}
配置SQL节点,且为数据同步节点的下游节点。
--通过DW历史数据和ODS增量数据刷新DW表insertoverwritetabledw_orders_his_dSELECTa0.orderid, a0.createtime, a0.modifiedtime, a0.o_status, a0.dw_start_date, a0.dw_end_dateFROM( -- 对orderid进行开窗然后按照生命周期结束时间倒序排,支持重跑SELECTa1.orderid, a1.createtime, a1.modifiedtime, a1.o_status, a1.dw_start_date, a1.dw_end_date , ROW_NUMBER() OVER (distributeBYa1.orderid,a1.createtime, a1.modifiedtime,a1.o_status sortBYa1.dw_end_dateDESC)ASnumsFROM( -- 用历史数据与增量22日的数据进行匹配,当发现在22日新增数据中存在且end_date > 当前日期的就表示数据状态发生过变化,然后修改生命周期
-- 修改昨日已经生命截止的数据并union最新增量数据到DW
SELECTa.orderid, a.createtime, a.modifiedtime, a.o_status, a.dw_start_date ,CASEWHENb.orderidISNOTNULLANDa.dw_end_date > ${bdp.system.bizdate}THEN${yesterday}ELSEa.dw_end_dateENDASdw_end_dateFROMdw_orders_his_d aLEFTOUTERJOIN(SELECT*FROMods_orders_inc_dWHEREdt = ${bdp.system.bizdate} ) bONa.orderid = b.orderidUNIONALL--2015-08-22的增量数据刷新到DWSELECTorderid, createtime, modifiedtime, o_status, modifiedtimeASdw_start_date ,'99991231'ASdw_end_dateFROMods_orders_inc_dWHEREdt = ${bdp.system.bizdate} ) a1) a0 -- 开窗口后对某个订单中生命周期为'9999-12-31'的取值并写入,防止重跑数据情况。WHEREa0.nums =1orderbya0.orderid,a0.dw_start_date;
备注:测试运行的时候,选择业务日期为20150822。也可以通过补数据方式,直接把20150822和20150823两天的增量数据刷入DW中。上面SQL中yesterday为自定义变量,其赋值为{yyyymmdd-1}
通过如上方式将20150822的增量数据刷入DW,如下所示:
通过同样的方式将2015-08-23日的数据增量输入DW,其结果为:
关于基于历史拉链表回滚某一天或一段时间内的数据,还是一个相对比较复杂的话题,这个可以下载再谈。
阅读更多干货好文,请关注扫描以下二维码: