数据质量管理体系建设工作贯穿企业大数据平台建设的全过程。数据质量管理是企业大数据平台数据工作的指导和规范文件,主要用于数据的开发、管理、维护、处理和应用的参照。根据企业大数据平台业务流程将数据工作标准分为数据开发标准、数据处理标准、数据存储标准、数据建模标准和数据应用标准,如图所示:
数据开发:通过业务系统采集获取原始数据、外部数据以及人工录入数据。建设数据开发工作流程以及工作标准,指导数据开发阶段工作。
数据处理:原始数据通过ETL流程进行数据抽取、转换和加载,对于其中规则复杂部分配合ODS区进行处理。建设标准化的数据处理业务流程和数据处理工作标准,为数据处理工作提供规范化指导性文件。
数据存储:经过数据处理规则后的数据形成数据仓库或数据集市。建设支持实时内存数据库、关系型数据库和文件存储系统标准格式规范,便于业务数据在企业大数据平台内部流转。
数据挖掘:通过数据挖掘模型进行数据深入分析,之后会得到数据标签或模型结果而成为数据仓库或数据管理平台的主要内容;部分应用如汇总报表等不需要挖掘过程,因此直接到达数据应用层。形成基于时间序列、聚类分析、关联算法等算法模型,挖掘历史运行数据中的隐藏规律,为用户提供决策支持。
数据应用:数据通过报表、数据门户、OLAP、数据产品等进行业务应用,应用数据可能来源于数据仓库、数据集市或数据挖掘模型。建设数据服务接口、消息推送服务、统计报表等数据应用规范。