读书笔记——阿里数据中台(第二篇:OneData体系2数据资产)

今天介绍OneData体系的第二部分,这部分主要的内容是从成本中心向资源中心转变的一个过程。这个过程的主要内容是有元数据做底层构建的。核心思想是将存储和计算成本与数据的价值挂钩,形成数据资产的概念。简单的理解可以使价值/成本。本章的介绍方式还是先讲问题,再讲方法。本人公司也是在业务发展速度较快期,数据成本问题非常突出。那么开始本次介绍

1. 数据成本的深渊

首先介绍的是因为数据公共层建设不完善导致的ODS层数据重复抽取,在ODS层,DWD层,因为都是明细数据,所以占用的存储非常大。
其次,也是最终要的方法,将存储作为成本来看。很长的时间人们对于大数据的概念就是:空值成本、梳理血缘。一个重要的转变就是将成本投入与数据应用产生的价值挂钩的投入产出比,更值得去关注,从成本走向资产,从而直接对标价值,这是数据人在大数据赋能业务的过程中的终极目标
最后,将人肉治,转换为产品治,是在数据管理中孜孜不倦追求的目标。

综合以上的三点,看出资产治理的必要性和核心,而阿里走向数据资产治理的过程是从
1. 存储治理
2. 资源治理
3. 数据资产管理

2. 发展过程

2.1 存储治理
在这里插入图片描述

这里没有什么需要明确说的,是在数据仓库重构的时候,配合进行的。具体内容在图片中都有展示,这里不是重点

2.2 计算治理
在这里插入图片描述

阿里的计算治理主要从两个方面入手,一个是自己搭建平台对数据框架的优化,这方面比较专业,是基于hadoop的优化,没有做详细的介绍,想要了解详情的可以去看一下《阿里巴巴大数据实践》这本书第十三章。
另外一个优化就是提交代码的优化主要有三个方面

  • map倾斜
  • join倾斜
  • reduce倾斜
    具体的优化同样可以参考上面的那本书的第十三章,这里主要做整个框架的介绍,后面我也会单独写博客介绍数据倾斜的优化,及解决方案。

针对以上的两个方面进行优化后,阿里的2015年资产节约近亿元

2.3 资源治理平台

在经过上面两项的优化话,考虑到将人肉治转化为产品化,阿里进一步推出资源治理平台,资源治理平台由多个模块构成,我们首先来看一下他的整体架构


在这里插入图片描述

在我们开始看整体架构之前,我们先看一下各个业务方的需求,到底想看到数据的什么情况

  • 对CEO或者业务负责人而言,他们更想知道的是自己到底有多少数据资产,分部情况如何,ROI(即全盘把握科学分析数据资产) ;如果当前业务缺乏一些数据,该从何处获取这些数据。
  • 对一线开发人员而言,他们不在乎有多少张表,可能指向看到会员数据或者某行业数据,所以他们想要的是可以清晰查看及快速使用的数据资产。
  • 对业务负责人及CTO、CFO,他们关系的是数据资产是否被合理的利用到合适的地方,哪些地方应该有数据却没有,哪些地方应用数据付出的代价太大,即准确评估及合理应用数据资产。
  • 对一线技术人员,技术负责人而言,他们关心的是是否能用数据治理数据,及如何实现大数据智能诊断与高效治理数据资产

基于上面的需求,我们再看整个架构,我们将架构分成三层

  1. 用户访问端与操作端:
    1.1 在产品目录导航上,直接提供资产全景的功能,资产全景一数据资产月报为例,会在这里说明当前整个集团的数据资产总量及其分布,各个数据域的占比,数据应用场景,以及投入产出比;
    1.2 提供资产地图功能,实现清洗快速使用数据资产服务;
    1.3 提供资产应用功能,为实现 准确评估及合理应用数据资产服务
    1.4 提供资产治理功能,为实现 只能话诊断与高效治理数据资产服务
  2. 技术端与后台运营端:
    在产品端或者用户访问端关注不到的地方,一方面在技术啊上做好资产分析,资产应用,资产优化等工作,为访问端提供素材;另一方面,在资产运营方面做好促进业务与技术,数据资产来源方等的协作互动工作
  3. 元数据中心:
    元数据中心主要的作用是将以上的工作实现自动化,而不是靠人去维护。元数据中心需要收集的元数据包括
    3.1 数据元数据,即关于数据的详情,计算,存储等情况的元数据;
    3.2 规范元数据,即关于元数据建设过程中的各种指标,模型相关的元数据;
    3.3 服务元数据,即关于数据在被以表或者API等方式提供服务时候的元数据

3. 实现方式

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 207,248评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,681评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,443评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,475评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,458评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,185评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,451评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,112评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,609评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,083评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,163评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,803评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,357评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,357评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,590评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,636评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,925评论 2 344

推荐阅读更多精彩内容