1、摘要
数据是一种重要的资源,已经成为一种社会生产要素,被提升为和劳动、土地和资本同等重要的地位。数据科学家和权威专家维克托.迈尔.舍恩伯格在其《大数据时代》中指出:虽然大数据还没有被列入企业的资产负债表,但这只是一个时间问题。由此可见,这个时间越来越近了。事实上,最近几年,许多人认为数据是一种资产,但是究竟什么是数据资产?如何管理数据资产?数据资产管理和数据管理有什么不同?尽管出现了很多专家和专著,但真正理解这个概念的人并不多,懂得如何实操数据资产管理的更寥寥无几。笔者作为第一批数据资产管理的探索者,有幸参与了国内几个典型项目,想借本文从数据资产全生命周期这个角度和业界同仁们分享一点自己的思考和心得。
数据资产全生命周期管理模型是设计良好的用于组织数据资产的框架,有许多工作要根据数据资产全生命周期管理模型来提出新的数据管理要求。截止目前,国内外还没有数据资产全生命周期管理的相关模型,如同任何其它资产一样,数据资产也具有生命周期,管理数据资产就是管理数据全生命周期。本文借鉴资产全生命周期管理理念和数据生命周期管理模型,根据大数据的特点,提出一种适用于数据资产管理的全生命周期模型,从而推动数据生产、使用、治理,实现效益最大化。
2、什么是资产全生命周期管理?
假设数据是一种资产,那么是不是可以借鉴传统资产全生命周期管理的理论呢?首先,让我们一起来看看什么是资产全生命周期管理。
资产全生命周期管理是指资产从构思、决策、设计、建造、使用,经过有形磨损,直至在技术上或经济上不宜继续使用,需要进行更新所经历的时间,开展资产全生命周期管理的目的就是加强资产管理。降低资产维护检修成本,延长资产使用时间,提高资产利用率。
以典型的设备资产为例,其全生命周期一般包括以下六个环节:
从设备设计、采购开始,直至设备运行、维护、报废进行全生命周期管理;将基建期图纸、采购、资料信息带到设备台账中,实现对设计数据、采购数据、施工数据、安装数据、调试数据等后期移交和设备系统生产运维所需要的完整数据平滑过渡,实现基建、生产一体化,提升企业资产利用率,增强企业投资回报率。同时结合成本管理、财务管理,既实现对资产过程管控,更实现对资产价值的管理。
由此可见,资产全生命周期管理是从长期效益出发,以设备全生命周期整体最优为管理目标,打破部门界限,将规划、基建、运行等不同阶段的成本统筹考虑,追求设备资产经济效益最大化,在最佳的可靠性水平和有效地利用资产之间寻求平衡。
3、数据全生命周期管理模型研究
数据全生命周期管理模型定义了一个宏观的框架,它是从生产阶段到消费阶段的数据生命的全景视图。数据全生命周期管理模型的目标是优化数据管理,提高效率,降低成本,以提供适合最终用户使用的数据产品,满足预期的质量要求,这和资产全生命周期管理的目标是一致的。但是,因为数据有很多自身的特点,又不完全相同。在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据全生命周期管理模型。
3.1 CSA模型
云安全联盟(CSA)是管理安全云计算环境的世界领先组织。CSA为云环境中的数据安全提出了一个数据生命周期模型。提供的数据模型有六个阶段,分别是创建、存储、使用、共享、存档和销毁,如图2所示。因此,这个模型解决了云计算环境中的一个特殊问题,安全性。
研究结论:此模型涵盖的内容并不全面,因为它是为云计算模型中的数据安全而设计的。因此,并未考虑数据质量、数据处理和数据分析等概念。
3.2 DataONE模型
地球数据观测网是由美国国家科学基金会(NSF)资助的一个名为“数据一号”的组织。他们的数据模型旨在为生物和环境科学研究提供数据保存和再利用。拟议的数据生命周期包括收集、保证、描述、存放、保存、发现、集成和分析,如图3所示。因此,该模型可以用于存储和检索长期使用的信息。
研究结论:该模型是专门为数据保存和复用而开发的,不能看作是一个综合模型。此外,对数据安全也没有任何关注。
3.3 DDI模型
数据文件倡议(DDI)是大学间政治和社会研究联合会(ICPSR)的一个项目。DDI试图为社会科学数据资源的描述生成元数据规范。所提供的模型包括八个元素,它们是研究概念、数据收集、数据处理、数据存档、数据分发、数据发现、数据分析和重新调整用途,如图4所示。
研究结论:这几乎是一个全面的模型,因为它成功地解决了数据生命周期中从收集到使用的大多数步骤。但是,似乎没有对数据质量和数据安全有任何关注。
3.4 DigitalNZ模型
DigitalNZ来自数字新西兰。他们的目标是为用户收集和增加数字内容的数量,而数据模型是为存档和使用数字信息而设计的。该模型包括选择、创建、描述、管理、保存、发现、使用和复用等步骤,如图5所示。该模型旨在管理数据利益相关者之间的数字信息交换。
研究结论:此模型的设计只关注存档和使用目的,因此不能将其视为一个全面的模型。此外,该模型不提供数据分析、数据集成、数据安全和数据质量。
3.5 生态信息学模型
生态信息学是帮助科学家处理相关生物、环境和社会经济数据和信息的框架。该模型旨在通过发现、管理、集成、分析、可视化和保存相关数据和信息的创造性工具和方法来构建新知识。如图6所示,计划、收集、保证、描述、保存、发现、集成和分析是该模型的步骤。因此,该模型提供了一个框架,以实现对某些特定科学的数据和信息的新见解。
研究结论:此框架设计几乎是一个全面的模型,因为它是为数据收集、数据保存、数据发现和一些数据操作(如数据集成和数据分析)而设计的。然而,数据安全仍然没有包括在内,所以它实际上也不是一个综合模型。此模型看起来与DataONE模型非常相似,但在第一步中它们有所不同。
3.6 一般科学模型
通用科学模型由科学机构提供,用于管理科学数字数据。此模型可用于管理用于存档或处理数据的数据收集方法。
通用科学数据模型将计划、收集、集成和转换、发布、发现和通知以及存档或丢弃作为生命周期的六个阶段。这个模型,如图7所示,可以用数据管理计划使用的特定技术来预测下一组数据采集。
研究结论:此模型不是整个数据生命周期的综合模型,因为它是专门为数据存档和处理而设计的。该模型不关心数据分析、数据安全和数据质量。
3.7 地理空间模型
地理空间数据生命周期模型由联邦地理数据委员会(FGDC)支持。该模型旨在为地理和相关空间数据活动探索和保存有价值的信息。图8总结了地理空间数据生命周期的各个阶段,包括定义、清点/评估、获取、访问、维护、使用/评估和归档。处理此模型是为了发现具有可接受的质量和业务需求的数据以供将来使用。
研究结论:此模型不能用作综合模型,因为它是专门为搜索和存档信息而设计的。另外,这个模型没有涉及到循环中的数据分析和数据集成。此外,质量保证和质量控制包括在每个阶段。
3.8 德乌斯托大学模型
西班牙德乌斯托大学的一组研究人员提出了一种用于智能城市数据管理的数据生命周期模型。如图9所示,该模型的不同阶段是发现、捕获、管理、存储、发布、链接、利用和可视化。此模型是一个用于在智能城市中发现、存储和发布数据的选项。
研究结论:该模型不能被视为综合模型,因为它是智能城市数据管理的专用模型。此外,模型中没有对数据安全和数据质量(包括QA和QC)的关注。
3.9 JISC模型
管理研究数据方案下的联合信息系统委员会(JISC)致力于英国高等教育和研究的良好研究数据管理和共享。所提出的研究模型是为用户之间的数据共享而设计的。该模型包括七个步骤:计划、创建、使用、评估、发布、发现和复用,如图10所示。所提供的模型是一个数据共享和发现框架,作为其全局数据管理起始点的一部分。
研究结论:此模型也不是综合模型,因为它是为数据共享和发现而设计的。此模型不提供任何数据处理、数据集成和数据分析阶段。此外,该模型涵盖了“评估”步骤下的质量控制概念,但未提供质量保证。
3.10 英国数据存档模型
英国数据档案馆是英国最大的数字数据(包括社会和经济数据)收集机构之一。英国的数据存档模式侧重于数字数据的获取、管理和存档。该模型包括创建数据、处理数据、分析数据、保存数据、访问数据和复用数据,并将它们组织为一个周期,如图11所示。因此,该模型对于跨数字数据的存档和发现是一个很好的选择。
研究结论:该模型可以假设为一个综合模型,因为它提供了完整的数据生命周期,包括采集、管理和保存。但是,此模型不包括数据质量。
3.11 USGS模型
美国地质调查局(USGS)数据集成社区(CDI)致力于处理与美国地质局科学研究相关的数据和信息管理问题。USGS数据模型提供了一个框架,用于评估和改进管理科学数据的政策和实践,并确定需要新工具和标准的领域。该模型包括主要的和横切的模型元素,如图12所示。主要的模型元素是计划、获取、处理、分析、保存和发布/共享。此外,横切模型元素还附带了描述、管理质量、备份和安全等步骤。因此,该模型可以为科学数据的管理提供参考,以获得更好的标准和工具。
研究结论:这个模型可以被认为是一个综合的模型,因为它为采集、整理和保存建议了数据周期。然而,该模型不包括数据安全,因为“存储和安全”元素中的安全含义是指物理风险,例如硬件和软件故障。
3.12 北京邮电大学模型
该模型隶属于北京邮电大学的一个研究小组。此模型用于云计算环境中的数据安全。图13所示的基于图的模型有五个阶段,分别是创建、存储、使用和共享、存档和销毁。该模型适用于云环境中的安全性。
研究结论:这个模型不能被认为是一个全面的模型,因为它的设计只支持云中的数据安全。此外,它不包括数据质量、数据分析和数据发布等阶段。
3.13 PII模型
个人身份信息生命周期模型涵盖了从创建到存储的PII数据。它从个人信息保护的视角,将生命周期划分为采集、处理、存储、转移和维护,如图14所示。
研究结论:虽然这个生命周期是封闭的,但它包含销毁过时数据的步骤。在这个周期的每一个步骤中,我们都注意到添加了额外的信息来保持信息的可跟踪性。
3.14 DAMA模型
DAMA(国际数据管理协会)认为有效的数据数据管理开始于数据获取之前,企业应先制定数据规划,定义数据规范,然后再进行开发实施、创建和获取、维护和使用、存档和检索,最后是清除。
研究结论:DAMA数据生命周期模型也不能看作是一个全面的模型,因为它并没有考虑数据安全、数据质量和数据共享分布等内容,而且它只给出了阶段划分,并没有详细说明每一阶段的具体内容,只是一个理论模型。
3.15 对比分析
为了进行分析,我选择了20个阶段:定义、计划、开发实施、创建/接收、处理、保证、描述、管理、存储、分发、发现、集成、维护、使用、可视化、评估、复用、共享/发布和归档。通过对比分析可以发现有些阶段是每个模型共同的;比如创建/接收,有些阶段则是独有的,比如可视化。令我感到意外的是数据归档和销毁居然很少有模型涉及,这说明很多模型并没有把数据当作资产来看待,并没有考虑数据管理的效益最大化,这也正是设计数据资产全生命周期模型的必要。为了使我的比较客观且直观呈现,我制作了一个分析图表。
之后,根据统计分析,结合大数据的特点已经企业实践经验保留了11个阶段,包括计划、定义、创建/接收、处理、集成、存储、运维、共享、发现、使用和复用、归档&销毁。
然后,我为每个生命周期分配一个分数,以便于评估模型。
这个排名也证实了DAMA在数据管理领域的专业地位,这是一个模型,几乎包含了我在分析中保留的所有阶段。我们在这个周期中唯一的缺点是数据集成、共享和发现阶段仍然没有,这几个阶段在数据使用过程中很重要。因此,我将此生命周期模型作为基础,同时利用USGS、生态信息学模型和DCI等模型来弥补DAMA模型中的缺项。接下来,我将介绍一种适用于数据资产管理全生命周期管理的模型。
4、数据资产全生命周期模型
我分析并描述了大多数数据生命周期模型。数据生命周期模型的出现表明,对数据管理和移动性的新要求给传统的数据生命周期模型增加了一些具体的步骤,如数据质量、数据安全、数据复用等。此外,许多模型都是为解决数据管理中的一个特定问题或特定目的而设计的。当然,每个模型对于他们的研究或项目需求来说都是一个合适的设计,而且,它们可能会留下一些挑战需要解决,因为这些挑战超出了他们的目标范围。基于这个原因,我想知道是否有一个综合的模型能够成功地满足数据资产管理的需求。数据资产全生命周期模型(Data Asset
Life Cycle Model,简称DALCM)主要贡献是消除企业或组织在为任何新项目设计新模型时的认知差异和浪费。
数据资产全生命周期分为4大期间和11阶段。4大期间包括数据资产生成的“入”期、数据资产保存的“存”期、数据资产应用的“用”期和数据资产退出的“出”期。四大期间下包含11个阶段,有效的数据资产管理始于数据的产生之前开始,首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生,从源头抓起,有句古诗说得特别好:“问渠那得清如许?为有源头活水来。”。在“存”的期间内,处理和存储都没什么好说的,比较容易理解,在这里把“集成”放进来主要是考虑到数据资产管理需要打通数据孤岛,数据只有集成起来才能发挥更大的价值。只有实现了数据集成,数据仓库才能称之为数据仓库,否则即使把数据集中起来存储,也只能叫做数据垃圾堆。“用”这个期间是真正产生价值的周期,其他周期都是成本,数据因使用而生值,用处越多价值越大。在“用”这个期间要特别强调“数据复用”这个阶段,时下比较流行的数据中台架构,我认为最大的一个价值就是数据复用和服务复用,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品值不值得开发很重要的一个指标应该看能不能复用。当然,如果不能复用,单个项目的收益足够大的时候,也是可以投入的。“出”也非常重要,虽然现在存储的价格越来越低,但是如果不加以管理也会产生很大的负担,对于数据资产整体效益不利。另外,如不加以区分,本该归档或者清除的数据和活跃的数据存放在一起,将严重影响效率。
数据运维提供保障,主要负责对数据库进行日常维护,对数据进行备份、恢复。确保数据完整性、一致性、及时性,保证数据质量。还要提供数据安全方面的防护,进行用户授权、身份认证和访问行为监控等,并保密级别较高的数据进行数据加密、脱敏、匿名化等操作。
数据资产运营是DALCM区别于数据生命周期不同之处。数据资产运营以数据资产效益最大化为目标,包括数据资产全生命周期成本核算、数据资产价值评估、数据资产变现、数据资产活性分析和数据资产投资收益分析等内容。
5 、企业实践
笔者发现很多人在谈数据生命周期管理的时候,只是提出了一个概念或者大概知道划分哪些阶段,但是并不知道具体怎么做,或者每个阶段从管理上和技术上怎么操作。
下面,笔者就以数据销毁阶段为例,简单介绍一下我在实践中的具体做法。
首先,根据数据的血缘关系,绘制出整个数据调用的关系链,如下图所示:
父级数据节点(如上图,父表是儿子表和儿媳表的父级节点)的活性等于自身的调用次数加上所有子节点的调用次数。
举例:比如上图中父表的活性=父节点自身的调用次数+儿子节点的调用次数+儿媳节点的调用次数+孙子节点的调用次数。
将活性等级划分为4个区间,分别为:死透、半死不活、活的一般、活得很好。
根据数据活性评估模型评估数据资产所处在的区间。通过一个月不间断的评估,根据每天评估结果的算术平均值。每月出具数据活性分析报告,为数据管理提供决策支持,比如:对死透的数据选择进行销毁、迁移到低成本存储设备或者想办法激活。有的数据虽然不在活动,也不能直接销毁,比如国家或行业监管有要求保存期限的。对于半死不活的数据可以考虑怎么样激活,让其被更多的利用,以创造更大的价值。
最后,还是得借助IT支撑工具实现自动化管理。通过数据资产全生命周期管理系统,可视化呈现Top100数据活性最高的数据资产,自动出具数据活性分析报告,列示超过12个月的死掉的数据清单,根据处理结果,统计释放的存储空间、节约的成本以及提升的效率,并绘制相应的变化趋势图。通过数据资产目录系统展示每一项数据资产的活性,以便于数据资产管理人员以及数据使用人员决策。
下一步,计划结合数据资产地图和数据资产活性绘制一份数据资产热力图(如图21所示),更加直观地呈现核心数据资产的分布和流向等。
6、总结
随着数字经济时代的到来,数据是一种资产被广泛认可,数据资产生命周期在各种数据管理框架中被提及,但是并没有一个权威的数据资产全生命周期模型。笔者首先回顾了传统资产全生命周期管理模型,然后分析了国内外几种数据生命周期模型的优缺点,再结合企业实践经验,提出了DALCM模型(数据资产全生命周期模型)。本文的附加价值介绍了数据销毁的具体做法,企业或组织看完后是立马可以施行的。
7、参考
1.DAMA模型.参考资料:DMBOK2.0,2017.2.5.9:p.28~29
2.https://cloudsecurityalliance.org/about
3.https://www.dataone.org/about
4.国际数字管理杂志, 2008.3(1): p. 134-140
5.www.ddialliance.org/system/files/Concept-Model-WD.pdf
6.http://www.digitalnz.org/about
7.http://www.dcc.ac.uk/about-us
8.http://www.dcc.ac.uk/resources/curationlifecycle-model
9.http://www.digitalnz.org/make-it-digital
10.https://.www.fgdc.gov/policyandplanning/a-16
11.http://lod2.eu
12.http://archives.msu.edu/records
13.http://webarchive.nationalarchives.gov.uk/20140702233839
14.http://www.jisc.ac.uk/whatwedo/programmes/mrd.aspx
15.http://www.data-archive.ac.uk/about