1、Data Consolidation: 数据整合
2、Data Integration: 数据集成
2.1、概述
将分散的数据源的数据,逻辑的或物理的集中到一个数据集合中。使用户以相同的方式访问所有数据源。
2.2、难点及处理方法
1) 异构:数据源的语义,相同语义数据的表达形式不同,数据源使用环境不同;
由数据源建模的不同而引起数据的异构。如果数据源间的实体关系模型相同,只是命名规则不同时,属于语法异构。
语法异构: 只需要知道数据结构信息,将数据源结构映射到目标数据结构上即可。
语义异构:一般需要直接处理内容。如内容合并、内容拆分、数据类型变换等。
2) 自治性:各数据源有很强的自治性,可能在不通知集成的情况下改变结构和数据。
2.3、数据集成分类
1)基本集成
通用标识符问题: 当同一实体存在于多个系统中,并且没有办法确认他们属于同一个实体时。
2)视图集成
2.4、常见数据集成方法
1)数据仓库:将各个数据源的数据复制到同一处,方便用户访问所有数据。
它不是面向事务的(实时应用,减少数据冗余,符合范式),是面向主题的(引入冗余,反范式设计,一般存储历史数据)。
它不是为捕获数据而设计的,而是为查询和分析数据而设计的。它的两个基本的元素是维度表和事实表.维表是看问题的角度,如时间、部门。维度表中放的就是这些维度的定义。数据表放的是待查询的数据,同时有维的ID。
2)数据中间件
3、Data Fusion:数据融合
3、1 多源数据特点:
冗余性、互补性、合作性
3、2 多源数据融合目标
去除数据冗余和矛盾,通过互补提高数据质量。
4、Information Fusion: 信息融合
5、 数据监控
注入了多少数据?
按数据源统计。