数据湖正在快速衰退。他们无法支持在全新大数据创新中实时市场需求。尽管许多公司仍然认为数据湖是无效且昂贵的,但数据湖是大多数公司有用数据的丰富来源。 它应该便于以几种结构形式,模式和文件配置数据。 他们有望使得大数据运营和管理人员的工作更轻松,更流畅,更快速。
然而这远离我们所看到的现实。大多数公司认为数据湖是灾难的代名词。
是什么导致数据湖停滞不前?
完全缺乏实践经验
如果用户知道如何耕耘,数据湖可以展现宝贵的原始数据资源。 如果用户缺乏真实的经验,那数据湖似乎就像一个深不可测的海洋,全是些难以理解的象形文字。 而大多数大数据分析师和数据挖掘人员都被用于把数据处理成为所需要的各种范式。
大多数数据挖掘工具和框架的创新性需要专门的训练。 没有任何实践经验和训练,大多数程序员无法创建新的工具或使用现有的工具,因为周转率非常快。 由此程序员速度很慢,而成本很高。
针对以上的情况,唯一的出路是与数据挖掘和大数据分析方面的思想领袖合作。 同时,公司也应该在培训员工方面进行投资。 一些培训课程,如MS Azure认证课程,可作为数据挖掘人员的理想选择。 教会他们如何优化Windows服务器工作负载,并使用IaaS架构,工具和服务。
工程技能不够扎实
当今大多数数据湖没有任何标准化的数据基础设施或数据设计的实现。如果工程师知道如何掌握Kafka,HBase和Spark,这是非常好的。然而,他们还需要Hadoop的良好知识才能够驾驭大数据的完整力量。
工程师需要能建立复杂数据层次结构和精心设计数据湖的知识。公司应该能够拥有生产级的平台。这需要有对数据架构,数据层次结构,设计集成,可扩展设计和良好的可测试性的良好理解。否则,大多数公司最终遭受需要完全重写的情况,而这是极具破坏力的不稳定性。
公司应该舍得工程师身上花钱。如果想得到数据湖带来的实际利益,那就需要经过培训的专业人士的协助。如果已经拥有数据湖,你不知道如何使用它为公司带来利益。继续投资一些经验丰富的专业人士,他们可以挖掘业务大数据的潜力。
落后的运营模式
在过去几年中我们看到的大多数大数据失败案例中,这些公司(大多数是无意中)将数据工程师置于业务孤岛。一个成功的公司永远不会孤立他们的数据科学家和业务团队。 IT是公司的组成部分,可以来指导沟通,业务运营,决策制定和营销策略。
数据科学家使用IT认可的工具。团队中的工程师需要为数据科学家生产和实施的数据增加适用性。公司需要一个强大的运营模式,可以在两个角色和两个团队之间创造一个凝聚力。
大多数公司需要更可靠的运营计划,将大数据引擎和生态系统结合起来。公司可以塑造组织架构和模式,以支持清晰的解决方案应用实践。当运行大量数据驱动的模型时,就需要确认一下业务支持部署这样有凝聚力的业务模式,这种模式将团队聚集在共生模型中。
糟糕的数据治理
对数据治理你有何了解?我们倾向于将其描述为在整个企业中将最重要数据资产进行整合的过程。它将确保数据是可靠和值得信赖的。一旦数据和数据驱动的活动质量很差,就会产生差异。则人们要对所说的偏差负责。
在大多数数据失败的案例中,我们发现是管理过失。治理不善和数据管理结构需要重点关注在数据湖形成第一阶段数据的组织和增长。多个用户应该可以通过各种应用访问数据。因此,数据需要始终如一的高质量。在谈论数据质量时,我们需要考虑所有的生产系统及其架构。
公司需要从数据起步开始计划。应该有数据收集,增长和发展的每个阶段的计划。 Hadoop不仅仅是另一个存储系统。团队应该了解使用Hadoop的意义,以及在第一阶段使用此功能进行数据收集,迁移和组织可以带来的优势。数据团队应该知道如何以计划和协调的方式移动数据,以保持数据湖的有效组织和可访问性。
缺失的基本能力
每个数据湖应具备相当数量的专业技能。这些可能包括自助数据采集,数据分析,数据分类,数据治理和元数据管理。数据分类,数据沿袭,全局搜索和安全是任何活动数据湖的重要组成部分。
在数据湖开始收集大量数据进行处理之前,这些基本能力是必须具备的。你需要额外保留一部分数据预算,以投入在数据清理,验证,分析,索引和跟踪元数据。数据挖掘和数据收集是两个相互依赖的任务。公司需要能够在需要的时候访问数据湖中的数据。这种访问和拉动是无错误的和可被复制的。
面临许多障碍的公司正在开始对他们的数据科学家和数据工程师进行培训。如果你遇到同样的大数据问题,请重新考虑分配资源以更好地训练团队。