Enterprise Data At HUAWEI(五)

支撑非数字原生企业数字化转型的数据底座建设框架

通过数据底座,主要实现以下目标:

  1. 统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据额产生着、业务源头以及数据的需求方和消费方。
  2. 打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自主分析、数字化运营等不同场景的数据消费需求。
  3. 确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。
  4. 保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规的消费。
数据底座的总体架构
华为数据底座总体架构
数据底座的建设策略

数据底座建设不能一蹴而就,要从业务出发,因势利导,持续进行。具体来说,华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略

  1. 数据安全原则:数据底座数据资产应遵从用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全。技术手段包括权限管理、权限控制、数据加密、数据脱敏等。
  2. 需求、规划双轮驱动原则:数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设。
  3. 数据供应多场景原则:数据底座数据资产根据业务需求提供离线/实时、物理/虚拟等不同的数据供应通道,满足不同的数据消费场景。
  4. 信息架构遵从原则:遵从公司的信息架构。

数据湖:实现企业数据的“逻辑汇聚”👍

华为数据湖的3个特点
  1. 逻辑统一:华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理。
  2. 类型多样:数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据,以及外部的媒体数据等。
  3. 原始记录:华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。
数据入湖的6个标准
  1. 明确数据owner:数据owner由数据产生对应的流程owner担任。
  2. 发布数据标准:业务数据标准描述公司层面共同遵守的“属性层”数据含义和业务规则,一旦发布,就作为标准在企业内被共同遵守。
    a. 数据资产目录:主题域分组、主题域、业务对象、逻辑数据实体、业务属性
    b. 定义与规则:引用的数据标准、业务定义、业务规则、数据类型、数据长度、允许值、数据示例、同义词、标准应用范围
    c. 责任主体:业务规则责任主体、数据维护责任主体、数据质量监控责任主体
  3. 认证数据源:确保数据从正确的数据源头入湖。
  4. 定义数据密级:数据入湖的必要条件,为确保数据湖中数据能充分共享,同时又不发生信息安全问题,入湖必须要定级。
  5. 数据质量评估:数据入湖不需要对数据进行清洗,但需对数据质量进行评估,让数据的消费人员了解数据质量情况及质量风险。
  6. 元数据注册:将入湖数据的业务元数据和技术元数据进行管理,包括逻辑实体与物理表的对应关系,以及业务属性和表字段的对应关系。
数据入湖方式
  1. 物理入湖:将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式。
  2. 虚拟入湖:原始数据不在数据湖中进行物理存储,通过建立对应虚拟表的集成方式实现入湖,实时性强,一般面向小数据量应用。
  3. 5种技术方案:
    a. 批量集成:用于进行复杂数据清理和转换且数据量较大的场景,不适合数据延迟和高灵活性的场景。
    b. 数据复制同步:用于需要高可用性和对数据源影响小的场景,不适合处理各种数据结构以及需要清理和转换复杂数据的场景。
    c. 消息集成:通常通过API或提取数据,适用于处理不同数据结构以及需要高可用性和复杂转换的场景,不适合处理大量数据的场景。
    d. 流集成:主要关注流数据的采集和处理,满足数据实时集成需求,处理每秒数万甚至数十万个(百万)事件流,不适合需要复杂数据清理和转换的场景。
    e. 数据虚拟化:需要低数据延迟、高灵活性和临时模式的消费场景,不适合需要处理大量数据的场景。
结构化数据入湖
非结构化数据入湖

数据主题联接:将数据转换为“信息”👍

5类数据主题联接的应用场景
  1. 多维模型是面向业务的多视角、多维度的分析,通过明确的业务关系,建立基于事实表、维度表以及相互间联接关系,实现多维度数据查询和分析。
  2. 图模型面向数据间的关联影响分析,通过建立数据对象以及数据实例之间的关系,帮助业务快速定位关联影响。
  3. 标签是对特定业务范围的圈定,在业务场景的上下文背景中,运用抽象、归纳、推理等算法计算并生成目标对象特征的表示符号,是用户主观观察、认识和描述对象的一个角度。
  4. 指标是对业务结果、效率和质量的度量,依据明确的业务规则,通过数据计算得到衡量目标总体特征的统计数值,能客观表征企业某一业务活动中业务状况。
  5. 算法模型是面向智能分析的场景,通过数学建模对现实世界进行抽象、模拟和仿真,提供支撑业务判断和决策的高级分析方法。
多维模型设计
图模型设计
标签设计
指标设计
算法模型设计
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容