数据很多,但真正能产生价值的数据却很少。数据普遍存在分散、不拉通的问题,缺乏统一的定义和架构,找到想要的、能用的数据越来越难。
详细说明华为如何通过数据湖和数据主题联接的建设,实现数据的汇聚和联接,打破数据孤岛和垄断,重建数据获取方式和次序。数据底座在华为数字化转型中起着关键作用。
华为通过建设数据底座,将公司内外部的数据汇聚在一起,对数据进行重新组织和联接,让数据有清晰的定义和统一的结构,并在尊重数据安全与隐私的前提下,让数据更易获取,最终打破数据孤岛和垄断。通过数据底座,主要可以实现如下目标。
1)统一管理结构化、非结构化数据。将数据视为资产,能够追溯数据的产生者、业务源头以及数据的需求方和消费者等。
2)打通数据供应通道,为数据消费提供丰富的数据原材料、半成品以及成品,满足公司自助分析、数字化运营等不同场景的数据消费需求。
3)确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况,从底层数据存储的角度,诊断数据冗余、重复以及“僵尸”问题,降低数据维护和使用成本。
4)保障数据安全可控。基于数据安全管理策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规地消费。
华为数据底座由数据湖、数据主题联接两层组成,将公司内外部的数据汇聚到一起,并对数据进行重新的组织和联接,为业务可视化、分析、决策等提供数据服务。
数据湖是逻辑上各种原始数据的集合,除了“原始”这一特征外,还具有“海量”和“多样”(包含结构化、非结构化数据)的特征。数据湖保留数据的原格式,原则上不对数据进行清洗、加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。
数据入湖必须要遵循6项标准,共同满足数据联接和用户数据消费需求。
数据主题联接是对数据湖的数据按业务流/事件、对象/主体进行联接和规则计算等处理,形成面向数据消费的主题数据,具有多角度、多层次、多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型5种数据联接方式。
华为数据底座采取“统筹推动、以用促建、急用先行”的建设策略。
数据底座资产建设遵从下面四项原则。
1)数据安全原则
数据底座数据资产应遵循用户权限、数据密级、隐私级别等管理要求,以确保数据在存储、传输、消费等全过程中的数据安全。技术手段包括但不限于授权管理、权限控制、数据加密、数据脱敏。
2)需求、规划双轮驱动原则
数据底座数据资产基于业务规划和需求触发双驱动的原则进行建设,对核心数据资产优先建设。
3)数据供应多场景原则
数据底座资产供应需根据业务需求提供离线/实时、物理/虚拟等不同的数据供应通道,满足不同的数据消费场景。
4)信息架构遵从原则
数据底座数据资产应遵从公司的信息架构,必须经IA-SAG(信息架构专家组)发布并完成注册。