1 文章结构脑图
2 基本概念
2.1 主数据
主数据: 是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息。 <font color=green>P270</font>
实体: 是客观世界的对象(人、组织、地方或事物等)。 <font color=green>P270</font>
<font color =red>主数据应该代表与关键业务实体有关的权威的、最准确的数据。</font> <font color=green>P270</font>
一般组织的主数据包括: 参与方、产品和 服务、财务体系、位置信息。<font color=green>P270</font>
- 记录系统,参考系统。<font color=green>P270</font>
记录系统(System of Record): 是一个权威的系统,它通过使用一套定义好的规则和预期(如ERP系统可以是记录销售客户的记录系统)来创建、获取并维护数据。
参考系统(System of Reference): 也是一个权威系统,数据消费者可以从参考系统中获得可靠的数据来支持交易和分析,即使这些信息并非起源于参考系统。
主管理管理应用 MDM、数据共享中心 DSH、数据仓库 DW 都可以用作参考系统。
可信来源,黄金记录。<font color=green>P271</font>
可信来源(Trusted Source): 被认为是“事实的最佳版本”。可信来源也可以称为一种单一视图、360度视图。在可信来源中,表示一个实体、实体的最准确 数据的记录称为黄金记录(Golden Record)。
技术目标将黄金记录定义为“事实的单一版本”,其中“事实”是指数据用户希望在确保他们拥有正确版本的信息时就可以把它们作为查阅的参考资料。主数据管理。<font color=green>P271</font>
主数据管理只有做到对主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时的数据的一致使用。<font color=red>目标包括确保准确的、最新的值的可用性,同时降低不明确标识符的风险。</font>
Gartner的定义强调主数据管理是一个由人、流程和技术组成的知识领域,并不是一个特定的应用程序解决方案。
评估一个组织的主数据管理情况,需要识别以下几点: <font color=green>P271</font>
- 1)哪些角色、组织、地点和事物被<font color=red>反复引用</font>。
- 2)哪些数据被用来描述<font color=red>人、组织、地点和事物</font>。
- 3)数据是如何被<font color=red>定义和设计</font>的,以及数据粒度细化程度如何。
- 4)数据在哪里被创建或来源于哪里,在哪里被储存、提供和访问。
- 5)数据通过组织内的系统时是<font color=red>如何变化</font>的。
- 6)<font color=red>谁使用</font>这些数据,为了什么目的。
- 7)用<font color=red>什么标准</font>来衡量数据及其来源的质量和可靠性。
在一个域内规划主数据管理包括以下几个基本步骤: <font color=green>P272</font>
- 1)识别能提供主数据实体全面视图的<font color=red>候选数据源</font>。
- 2)为精确匹配和合并实体、实例<font color=red>制定规则</font>。
- 3)建立<font color=red>识别和恢复</font>未恰当匹配或合并的数据的方法。
- 4)建立将可信数据<font color=red>分发</font>到整个企业的系统中的<font color=red>方法</font>。
主数据管理是一个全生命周期的管理过程。全生命周期中的关键活动包括: <font color=green>P272</font>
- 1)<font color=red>建立主数据实体的上下文</font>,包括相关属性的定义及其使用条件,并加以治理。
- 2)<font color=red>识别出</font>在单个数据源内以及多个数据源中代表<font color=red>同一实体的多个实例</font>;构建并维护标识符和交叉引用,以支持信息整合。
- 3)协调和整合不同来源的数据,以<font color=red>提供</font>主记录或事实的<font color=red>最佳版本</font>。合并记录提供了跨系统的信息合并视图,并试图<font color=red>解决</font>属性命名和数据值<font color=red>不一致的问题</font>。
- 4)识别出那些未被正确匹配或合并的实例,确保它们得到<font color=red>修正</font>, 并关联到正确的标识符。
- 5)通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,<font color=red>实现</font>对可信数据的<font color=red>跨程序访问</font>。
- 6)在组织内<font color=red>强制使用主数据</font>。这个过程还需数据治理和变更管理的支持,以确保共享的企业视角。
- 主数据管理的关键处理步骤 <font color=green>P272</font>
主数据管理的关键处理步骤: 数据模型管理。数据采集。数据验证/标准化和丰富。实体解析。数据共享和管理工作。- 数据模型管理: 对于主数据来说,在企业级使用的术语和定义应该与整个组织所进行的业务相关联,而<font color=red>不必依赖于源系统贡献的数据值</font>。构成主数据的属性,定义的粒度和相关数据值的粒度在整个组织中也必须有意义。不同系统中的不同命名的多个属性,要在模型中<font color=red>合并为单一属性</font>。 <font color=green>P272</font>
-
数据采集: 从规划、评估和合并新的数据源到确定主数据管理解决方案,必须是 一个可靠的、可重复的过程。 <font color=green>P272</font>
数据采集活动包括: 1接收并应对新的数据源采集的要求。2使用数据清理和数据分析工具进行快速、即时、匹配和高级的数据质量评估。3评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析。4试点数据采集及其对匹配规则的影响。5为新数据源确定数据质量指标。6确定由谁负责监控和维护新数据源数据的质量。 -
数据验证、标准化和数据丰富: 实现实体的解析,数据应尽可能保持一致。
过程: <font color=red>1验证</font>。识别那些被证明是错误的或可能是不正确或默认的数据。<font color=red>2标准化</font>。确保数据内容符合标准参考数据值(如国家代码)、标准的格式(如电话号码)或字段(如地址)。<font color=red>3数据丰富</font>。添加可以改进实体解析服务的属性。 <font color=green>P273</font> -
实体解析和标识符管理: 实体解析(Entity Resolution)是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程,是决策过程。 <font color=green>P273</font>
实体解析包括一系列活动: <font color=red>实例提取、实例准备、实例解析、身份管理、关系分析</font>。 - 数据共享和管理责任工作: 有自动化,但人工不可少。 <font color=green>P276</font>
实体解析: <font color=green>P274</font>
-
1匹配(Matching)。 匹配或候选识别是识别不同记录如何与单个实体相关联的过程。
这个过程的风险是:
a)假阳性(False Positives): 不代表同一实体的两个对象被关联在一个标识符下。 假阳性导致一个标识符指向多个现实世界的实体实例。
b)**假阴性(False Negatives): ** 代表同一实体的两个对象没有关联在一个标识符下。假阴性导致多个标识符指向同一个现实世界的实体,但一个实体本应该有且只有一个标识符。
假阳性和假阴性都可以通过相似性分析或匹配的过程来处理,有 <font color=red>a)确定式算法;b)或然性算法</font>。P274-275 - 2身份解析。 一些匹配采用多个字段实现精确数据匹配,故可信度很高;另一些匹配则由于数值冲突而缺少可信度。
-
3匹配流程/协调类型。 不同场景的匹配规则需要不同的工作流程:
a)<font color=red>重复标识匹配规则</font>。 重点关注一组特定的数据元素,这些无素能唯一标识实体,识别合并机会而不采取自动合并操作。
b)<font color=red>匹配链接规则</font>。标识可与主记录相关的记录,只建立交叉引用关系而不更新这些被 交叉引用的记录的内容。
c)<font color=red>匹配合并规则</font>。重点关注记录的匹配,并将这些记录中的数据合并为单一、统一、协调且全面的记录。匹配合并规则如此复杂,目的就是希望在多个记录和数据源中提供统一的、协调的信息版本。P275-276 -
4主数据 ID 管理。 管理主数据涉及管理标识符。在主数据管理环境中,有两种类型的标识符需要跨数据源管理:全局标识符(GlobalID)、交叉引用(X-Ref)信息。
全局标识符是主数据管理解决方案分配和维护的唯一标识符,它会被附加到协调记录中,其目的是能唯一标识一个实体实例。
交叉引用管理(X-Ref Management)是对源ID和全局标识符之间关系的管理,交叉引用管理应该包括维护此类映射历史的功能以支持匹配率指标,并开放查找服务以支持数据整合。P276 - 5从属关系管理。 从属关系管理负责建立和维护具有现实世界关系的实体主数据记录之间 的关系。<font color=red>a)隶属关系。b)父子关系</font>。P276
参与方主数据 <font color=green>P277</font>
参与方主数据(Party Master Data): 是关于个人、组织以及他们在业务关系中所扮演角色的数据。
无论什么行业,管理业务参与方主数据均面临一定的挑战:
<font color=red>1)个人和组织扮演的角色和他们之间关系的复杂性。
2)唯 一标识的困难。
3)数据源的数量和它们之间的差异。
4)多个移动通信信道和社交渠道。
5)数据的重要性。
6)客户想要怎样参与的期望。</font>财务主数据 <font color=green>P277</font>
财务主数据(Financial Master Data): 包括有关业务部门、成本中心、利润中心、总账账户、预算、计划和项目的数据。法律主数据 <font color=green>P277</font>
法律主数据(Legal Master Data): 包括关于合同、法规和其他法律事务的数据。产品主数据 <font color=green>P277</font>
产品主数据(Product Master Data): 专注于组织的内部产品和服务,或全行业的产品和服务(包括竞争对手)。
不同类型的产品主数据解决方案支持不同的业务功能。
1)产品生命周期管理(PLM) 系统侧重于从构想、开发、制造、销售、交付、服务和废弃等方面管理产品或服务的生命周期。
2)产品数据管理(PDM)系统: 设计文档(如 CAD 图样)、配方(制造说明书)、标准操作程序和物料清单(BOM)等产品信息。
3)企业资源规划(ERP)系统 的产品数据主要关注库存单位。
4)制造执行系统(MES) 中的产品数据主要关注原材料库存、半成品和成品。
5)客户关系管理(CRM) 系统支持营销、销售和交互支持。位置主数据 <font color=green>P277</font>
位置主数据(Location Master Data) 提供跟踪和共享地理信息的能力,并根据地理信息创建层次关系或地图。行业主数据——参考目录 <font color=green>P277</font>
参考目录 是主数据实体(公司、人员、产品等)的权威清单,组织可以购买和使用主数据实体作为交易的基础。
==获得正式许可的参考目录例子包括邓白氏公司(D&B)全球总部、各地子公司、分支机构的公司目录、美国医学协会医生处方数据库等。==
2.2 参考数据
参考数据 是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构。 <font color=green>P266</font>
==参考数据虚拟地存在于每个数据存储中,可以根据状态或类型进行分类(如订单状态:新订单、处理中的订单、已结束的订单、已取消的订单),也可以根据其他外部信息(如地理信息或标准信息)进行分类(如国家代码:DE、US、TR)。==
参考数据常用的存储技术包括: <font color=green>P266</font>
1)<font color=red>关系数据库中的代码表</font>。通过外键与保持参照完整性。代码值是主标识符,是在其他上下文中出现的短格式参考值。
2)<font color=red>参考数据管理系统</font>。支持更广泛的应用和数据整合使用。
3)用特定于对象属性的元数据指定允许值, 重点在于应用程序的调用接口或用户界面访问。==【第一种是系统中存储一个代码表, 第二种是独立的一个存储各类参考数据的系统,第三种是直接在相关的属性上的枚举值】==。
<font color=red>参考数据的一个重要元数据属性就包括其来源, 如行业标准参考数据的管理机构。</font> <font color=green>P266</font>
参考数据结构 <font color=green>P266</font>
1)<font color=red>列表</font>。最简单的参考数据是由代码值和代码描述组成的列表。
2)<font color=red>交叉参考数据列表</font>。 不同的应用程序可以使用不同的代码集表示相同的概念。
3)<font color=red>分类法</font>。 分类参考数据体系根据不同级别的差异性获取信息。
4)<font color=red>本体</font>。一些组织将用于管理网站内容的本体作为参考数据的一部分,本体模型也可以理解为是元数据的一种形式。专有或内部参考数据 <font color=green>P269</font>
行业参考数据 <font color=green>P269</font>
行业参考数据(Industry Reference Data): 是一个宽泛的术语,用于描述由行业协会或政府机构而不是由某个组织创建和维护的数据集,以便为编码重要的概念提供一个通用的标准。
==例如,国际疾病分类代码(ICD)提供了一种常见的方法对健康状况(诊断)和治疗(程序)进行分类。==地理或地理统计参考数据 <font color=green>P269</font>
地理或地理统计参考数据(Geographic or Geo-statistical Reference Data)可根据地理信息进行分类或分析。
==例如,人口普查局关于人口密度和人口结构变化的报告,为市场规划和研究提供了依据;将历史气象信息对应到严格的地理分类,可以为库存管理和促销计划提供依据。==计算参考数据 <font color=green>P269</font>
计算参考数据(Computational Reference Data): 与其他类型数据的主要区别在于其变化的频率。为了确保数据的完整性和准确性,许多组织从第三方购买这种数据。
==例如, 外汇计算依赖于良好管理的、及时更新的交换汇率值表。==标准参考数据集的元数据 <font color=green>P269</font>
2.3 主数据和参考数据的区别
奇泽姆(Malcolm Chisholm)的六层的数据分类法: 元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。
他将主数据定义为参考数据、企业结构数据和交易结构数据的聚合。
主数据是“以与业务活动相关的<font color=red>通用和抽象概念形式</font>提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。主数据面临的主要挑战是实体解析。 <font color=green>P264</font>
从概念上来说,参考数据和主数据有着相似的用途。两者都为交易数据的创建和使用提供重要的上下文信息。 <font color=green>P264</font>
参考数据和主数据管理的重点不同: <font color=green>P265</font>
1)参考数据管理(Reference Data Management,RDM)。 需要对定义的域值及其定义进行控制。目标是确保组织能访问每个概念的一整套准确且值是最新。
2)主数据管理(Master Data Management,MDM)。需要对主数据的值和标识符进行控制,以便能够跨系统地、一致地使用核心业务实体中最准确、最及时的数据。主数据管理的目标 包括确保当前值的准确性和可用性,同时降低由那些不明确的标识符所引发的相关风险。参考数据管理面临的别一个挑战是由谁主导或负责参考数据的定义和维护。
2.4 数据共享架构
实现主数据中心环境的三种基本方法: <font color=green>P280</font> 见下图10-3
** 1)注册表(Registry):** 注册表是指向多种记录系统(System of Record)中主数据记录的索引。
** 2)交易中心(Transaction Hub):** 主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。
** 3)混合模式 (Consolidated):** 是注册表和交易中心的混合体。记录系统管理应用程序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享。
3 语境关系图
3.1 定义
3.2 目标
目标:
1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
【==促一致。促共享。控成本==】<font color=green>P263</font>
指导原则:
1)共享数据。为能共享必须管理起来。
2)所有权。所有权属于整个组织,需要全局 的组织管理。
3)质量。需要持续的监控和治理。
4)管理职责。业务数据管理专员要对质量负责。
5)控制变更。1在给定的时间点,主数据值应代表最佳理解。改变数据值的匹配规则有监督。 合并或拆分可追溯的。2对参考数据的更改应遵循明确流程:在实施变更之前应得到批准。
6)权限。主数据值应仅从记录系统中复制。为实现跨组织的共享,需建立参考数据管理系统。<font color=green>P264</font>
3.3 业务驱动因素
主数据管理常见业务驱动因素: ==1)满足组织数据需求==。共同数据集的完整、最新、一致的。==2) 管理数据质量==。管控至关重要实体的数据质量。==3)管理数据集成的成本== 。==4)降低风险==。【==满足需求、管控质量、管控成本、降低风险==】 <font color=green>P262</font>
参考数据管理的驱动因素: 1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。2)提升参考数据的质量。【==降本、提质==】<font color=green>P262</font>
3.4 输入
3.5 活动
3.5.1 主数据管理活动
- <font color=red>识别驱动因素和需求</font>。
- <font color=red>评估和评估数据源</font>。
- <font color=red>定义架构方法</font>。取决于业务战略、现有数据源平台、数据本身,还有数据血缘和波动性及延迟的影响。
- <font color=red>建模主数据</font>。数据整合的过程。必须在主题域内为数据建模。
- <font color=red>定义管理职责和维护过程</font>。向源系统反馈,修复和改进数据遗失的流程。
- <font color=red>建立治理制度,推动主数据使用</font>。要有路线图。==(重点*****)== <font color=green>P280-282</font>
3.5.2 参考数据管理活动
- <font color=red>定义驱动因素和需求</font>。主要是运行效率和更高的数据质量,减少系统不一致的风险。
- <font color=red>评估数据源</font>。
- <font color=red>定义架构方法</font>。
- <font color=red>建模参考数据</font>。
- <font color=red>定义管理职责和维护流程</font>。
- <font color=red>建立参考数据治理制度</font>。<font color=green>P282-284</font>
3.6 交付成果
3.7 技术驱动因素
3.8 方法
3.9 工具
3.10 度量指标
- 数据质量和遵从性。数据质量仪表板可以描述参考数据和主数据的质量。
- 数据变更活动。审核可信数据的血缘对于提高数据共享环境中的数据质量是必要的。
- 数据获取和消费。
- 服务水平协议(SLA)。
- 数据管理专员覆盖率。可以用来识别支持方面的差距。
- 拥有总成本。可以包括环境基础设施、软件许可证、支持人员、咨询费、培训等。
- 数据共享量和使用情况。
4 实施指南
4.1 监控相关数据流
监控相关数据流,以便实现以下目的:
- 数据如何共享和使用。
- 识别数据的血缘关系。
- 辅助问题追因分析。
- 展示数据整合和技术的有效性。
- 展示源系统数据值延迟。
- 确定在集成组件中执行的业务规则和转换的有效性。<font color=green>P284</font>
4.2 管理参考数据变更
由于参考数据属于共享资源,所以不应任意更改。<font color=red>成功管理参考数据的关键在于,组织放弃本地控制共享数据的意愿。</font><font color=green>P285</font>
参考数据修改的类型包括: 1)对外部参考数据集的行级变更。2)外部参考数据集的结构变化。 3)对内部参考数据集的行级变更。4)内部参考数据集的结构变化。5)创建新的参考数据集。
<font color=green>P285</font>
参考数据变更请求流程: 1 接受变更请求。2 确定利益相关方。3 确认影响。4 决策和沟通。5 更新并通知(如果可行)。<font color=green>P285</font> 见下图10-5
5 参考数据和主数据的治理
治理过程应决定如下事项:
- 1)要整合的数据源。
- 2)要落实的数据质量规则。
- 3)遵守使用规则的条件。
- 4)要监控的行动和监控频率。
- 5)优先级和数据工作响应等级。
- 6)如何展示信息以满足利益相关方的需求。
- 7)参考数据管理和主数据管理部署的标准授权扎口和预期。<font color=green>P287</font>
6 关键架构图
-
图10-1 参考数据和主数据语境关系图
-
图 10-2 主数据管理的关键处理步骤
-
图10-3 主数据共享架构示例
-
图10-4 参考数据变更请求流程