中国数据质量管理现状及发展趋势(二)

在谈数据质量的时候,我们会面临一个语义的理解问题,语义理解问题要是没有办法做好的话,我们很多标准做不出来。但是我们大部分时候怎么做呢?人工做。这次我知道百度有一个很好的产品,也获奖了,就是自动标注的那个。我没有细看,我觉得这个为我们未来做自动化处理规则,已经迈出了很关键的一步,我找时间还是再请教,我觉得这个主题非常好,因为它涉及到数据、信息语义和业务规则,每一个环节都构成了我们未来对数据质量的影响,这个我想等一下会看到这个概念。

图1.6

回到这个,我一直还是非常认同,在数据质量里面我们看什么,我们讲固本清源,固本清源讲什么?包括定义、分析、度量、提升,这是我们在讲数据质量时候的4个角度。什么叫定义?刚才我们提到了规范性的问题,这放在第一个,要是定义不准,标准不准,你去做数据质量,再好的技术也没用。

图1.7

我们再看另外一个角度,我们讲这个是业界的角度,我们关注数据、规则、监控、遵从、可追溯、剖析,这是来自业界的一些理解。

图1.8

这个是来自我们对一些工具的理解,这里面我把工具名称给隐掉了,我相信大家也接触很多工具,这个工具我们看什么呢?我们讲剖析、集成、匹配、规则发现、数据补充、集成架构,这些都是我们在谈数据质量的时候,在不同的角度去理解这个问题。

图1.9

我想重点讲一下这张图,其实我们在谈整个数据质量的管理,当然这里不是我的总结,是业界的知识,在60年代、80年代的时候,谁最关注数据质量?基本上是统计的领域。然后到信息时代,80年代到2000年,我们号称信息时代。再就是2000年以后,我们讲这个阶段我们在看的事情。左边有很多方法论,当然这里不全,大家去研究数据质量的时候有这些流派,你们都能看的到。时间轴上也是这么走的,ISO9000,最新的38505,包括一些大的企业方法论。

横向的,这是我们的数据积累,整个结构跟技术的发展是有关的,就是说数据质量的管理跟技术的发展会影响我们,当然我相信未来对我们方法论的一些反哺也会对我们现在整个数据质量发展的技术,包括我们做的事情是有影响的。

上下两个板块,下面板块就是数据质量衡量的维度。最早的时候我们看的是准确性,当时的场景,包括我们的技术手段,包括我们能做什么,包括我们关心什么,这个是准确性,接着是及时性,我们考虑的深度会越来越往这个方向走。

前面我们讲数据质量的管理是以人为中心的,为什么以人为中心呢?其实就是究竟怎么能够让我的企业用在最恰当的时候,我的感知是很重要的,要是我的感知没有办法有,我就没有办法知道具体这个事情做的好还是不好,所以在前面我们会做定义测量分析提升,再往后我们会看以应用为中心,以数据为中心,以服务为中心。

再往下我们现在讨论成本与效益,我们现在做很多事情的时候离不开成本、效益,以前我们可能不讨论,但是现在必须要讨论成本,现在是大数据时代,这是非常重要的情况。

未来的发展,这里面有几个技术,一个是数据探查的技术,包括我们刚才提到的NLP的技术,非结构化跟结构化数据,我们怎么把它们集成在某些共性上进行数据处理。自动标注技术,我刚才讲到了。还有一个规则发现技术,还有我们自动化处理技术。这些技术都会影响我们在整个数据质量的方法或者实施的路径,包括我们的效果。

图1.10

以数据探查能力为例,这里面我们有三个板块。最早的板块在我们人工的时候我们会做到浅色的这部分,比如说在早期的时候我们去体检可能只是X光就OK了,因为你没有太多手段,你们X光看到什么你就做什么。但是现在有CT了,现在还有无痛治疗的方法,非常多的技术,它会让你的探查越来越深,它会对你的数据脉络越来越清楚,这个也为我们未来做数据治理带来更多的技术支持。

数据探查包括我们的数据信息,包括我们的业务规则,都是支持怎么让这些东西做的更加通透,了解我们自己是什么,了解我们数据是什么,这是决定我们下一步应该怎么做的关键。

图1.11

第二个技术是自动化处理技术,我们现在也是在做这个领域的探索,这个自动化技术我们希望整合自然语言处理,包括结构化处理,包括我们现在迭代跟完善的规则,这些规则更好地让我们在整个数据处理过程中降低我们的成本,缩短我们的时间,这是我们讲数据治理的一些考虑点。

图1.12

另外我们要提出的是你在做数据质量,包括数据治理的时候其实有三个维度,首先你有什么样的技术,你有什么样的探查能力,有什么样的理解数据的能力,决定了你数据处理的效能,包括他的效益,也反哺告诉我们在做咨询的时候,在做管理制度的时候,哪些是我们的痛点,哪些是我能够得到的,哪些是不能够得到的。

中间这个是我们的技术,怎么去处理我们的数据,能够让数据更加清晰。上面是来指导我们在咨询里如何获得量化的结论,让我们的咨询能基于一些量化的基础进行一些预测,而不是仅凭一种理解或者一种经验,我觉得这是我们现在面对的主要问题,因为数据本身就实实在在存在那里,我们应该怎么去理解数据。

图1.13

我们企业管理有几个维度,包括考核、管理、方法、路径、模型,这是我们都要做的。这是我们相对的一些优先级,

包括我们的组织机构更重要,还是我的规范更重要,还是我们的支撑平台更重要,这个取决于我们每个企业他的特点,但是这跟三者是离不开的,我们应该怎么样比较好地综合这三种元素,来决定我们整个企业建设的方法。

图1.14

最后一章,我们要考虑的是时间、成本、质量,我们后续做数据质量、数据治理的时候离不开这三个维度,因为我们要落地,我们要真正为企业赢得效益,所以时间、成本、质量是我们的三个维度。

图1.15

最后给各位关于数据治理的建议:

第一,找到自己的起点。

第二,怎么解决标准问题。因为它是我们花最多时间,也最容易产生漏洞地方。

第三,一定要考虑时间与成本。它不是一个科研的项目,是一个企业真实的效能项目。

谢谢各位。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容