公司取得数据挖掘成功必须克服的5大挑战

数据湖正在快速衰退。他们无法支持在全新大数据创新中实时市场需求。尽管许多公司仍然认为数据湖是无效且昂贵的,但数据湖是大多数公司有用数据的丰富来源。 它应该便于以几种结构形式,模式和文件配置数据。 他们有望使得大数据运营和管理人员的工作更轻松,更流畅,更快速。

然而这远离我们所看到的现实。大多数公司认为数据湖是灾难的代名词。

是什么导致数据湖停滞不前?

完全缺乏实践经验


如果用户知道如何耕耘,数据湖可以展现宝贵的原始数据资源。 如果用户缺乏真实的经验,那数据湖似乎就像一个深不可测的海洋,全是些难以理解的象形文字。 而大多数大数据分析师和数据挖掘人员都被用于把数据处理成为所需要的各种范式。

大多数数据挖掘工具和框架的创新性需要专门的训练。 没有任何实践经验和训练,大多数程序员无法创建新的工具或使用现有的工具,因为周转率非常快。 由此程序员速度很慢,而成本很高。

针对以上的情况,唯一的出路是与数据挖掘和大数据分析方面的思想领袖合作。 同时,公司也应该在培训员工方面进行投资。 一些培训课程,如MS Azure认证课程,可作为数据挖掘人员的理想选择。 教会他们如何优化Windows服务器工作负载,并使用IaaS架构,工具和服务。

工程技能不够扎实


当今大多数数据湖没有任何标准化的数据基础设施或数据设计的实现。如果工程师知道如何掌握Kafka,HBase和Spark,这是非常好的。然而,他们还需要Hadoop的良好知识才能够驾驭大数据的完整力量。

工程师需要能建立复杂数据层次结构和精心设计数据湖的知识。公司应该能够拥有生产级的平台。这需要有对数据架构,数据层次结构,设计集成,可扩展设计和良好的可测试性的良好理解。否则,大多数公司最终遭受需要完全重写的情况,而这是极具破坏力的不稳定性。

公司应该舍得工程师身上花钱。如果想得到数据湖带来的实际利益,那就需要经过培训的专业人士的协助。如果已经拥有数据湖,你不知道如何使用它为公司带来利益。继续投资一些经验丰富的专业人士,他们可以挖掘业务大数据的潜力。

落后的运营模式


在过去几年中我们看到的大多数大数据失败案例中,这些公司(大多数是无意中)将数据工程师置于业务孤岛。一个成功的公司永远不会孤立他们的数据科学家和业务团队。 IT是公司的组成部分,可以来指导沟通,业务运营,决策制定和营销策略。

数据科学家使用IT认可的工具。团队中的工程师需要为数据科学家生产和实施的数据增加适用性。公司需要一个强大的运营模式,可以在两个角色和两个团队之间创造一个凝聚力。

大多数公司需要更可靠的运营计划,将大数据引擎和生态系统结合起来。公司可以塑造组织架构和模式,以支持清晰的解决方案应用实践。当运行大量数据驱动的模型时,就需要确认一下业务支持部署这样有凝聚力的业务模式,这种模式将团队聚集在共生模型中。

糟糕的数据治理


对数据治理你有何了解?我们倾向于将其描述为在整个企业中将最重要数据资产进行整合的过程。它将确保数据是可靠和值得信赖的。一旦数据和数据驱动的活动质量很差,就会产生差异。则人们要对所说的偏差负责。

在大多数数据失败的案例中,我们发现是管理过失。治理不善和数据管理结构需要重点关注在数据湖形成第一阶段数据的组织和增长。多个用户应该可以通过各种应用访问数据。因此,数据需要始终如一的高质量。在谈论数据质量时,我们需要考虑所有的生产系统及其架构。

公司需要从数据起步开始计划。应该有数据收集,增长和发展的每个阶段的计划。 Hadoop不仅仅是另一个存储系统。团队应该了解使用Hadoop的意义,以及在第一阶段使用此功能进行数据收集,迁移和组织可以带来的优势。数据团队应该知道如何以计划和协调的方式移动数据,以保持数据湖的有效组织和可访问性。

缺失的基本能力


每个数据湖应具备相当数量的专业技能。这些可能包括自助数据采集,数据分析,数据分类,数据治理和元数据管理。数据分类,数据沿袭,全局搜索和安全是任何活动数据湖的重要组成部分。

在数据湖开始收集大量数据进行处理之前,这些基本能力是必须具备的。你需要额外保留一部分数据预算,以投入在数据清理,验证,分析,索引和跟踪元数据。数据挖掘和数据收集是两个相互依赖的任务。公司需要能够在需要的时候访问数据湖中的数据。这种访问和拉动是无错误的和可被复制的。

面临许多障碍的公司正在开始对他们的数据科学家和数据工程师进行培训。如果你遇到同样的大数据问题,请重新考虑分配资源以更好地训练团队。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容