大数据数据血缘是什么,跟数据质量有什么关系? - 大数据 - 知乎 https://www.zhihu.com/question/31613021
以及数据地图 这三者之间的关系是什么?
数据血缘指的数据产生的链路,比如下面的语句就建立起了a和b血缘,往更细的说,也可以建立字段间的血缘。
select udf(i) as k,j from a insert overwrite b
在这条产出链上 a.i 的产出质量会影响 b.k ,从血缘上就可以分析出来。
至于数据地图,就是这些揉到一起做个产品应该就叫数据地图吧。我的理解是这样的。
血缘
一般是讲数据生产的路径,比如通过数据A数据B产生了数据C,那么C的父血缘就是A和B,反之亦然。
质量
一般是为数据配置了一系列的质量检查规则,比如非空检查,唯一检查等等!检查结婚即是质量。
地图
一般是集中的元数据管理系统,可以在这里搜索数据(结构定义)
元数据管理中的血统分析和影响分析功能是如何实现的? - 开源中国社区 http://www.oschina.net/question/125782_58813
etl任务等的sql解析或者任务依赖关系分析,获取到表与表,或者到字段层次的关联。