Java程序员,到底要不要转行大数据?

前几天有个朋友在群里提问:如何看待大数据的未来?有必要转大数据方向吗?

关于这个问题,谈谈我的思考。伴随公有云厂商的兴起,大数据的应用进入了2.0时代。

传统大数据那种需要大量购买机器以及Hadoop发行商版本的时代一去不复返了,企业可以非常便利的按照自己的需要,在云端弹性的分配资源,并按照使用量付费。这使得大数据技术不但进入到了传统意义上的大中型企业,更是深入到了各行各业的小企业和创业者。

另外一个方面,数据驱动这个伴随大数据兴起的理念,在10年前还有点前卫,到如今伴随谷歌,脸书,阿里,今日头条等一系列互联网巨头的兴起,已经是行业的标准了。

大数据基础建设的易用性和按需付费,以及数据驱动业务发展的理念深入人心,让大数据开发从业人员到了一个前所未有的时代。

一方面,基础建设的便利性和低成本,让企业们更愿意投资大数据;另外一方面,数据对业务发展的重要性,也让企业需要越来越多的大数据开发人员

而数据驱动是这个时代的主旋律,从事大数据开发的人站在时代浪潮之巅,无论工作机会,还是薪资待遇,都在整个互联网从业人员里居于顶端。可以说,大数据最好的从业时间是大数据刚诞生的时间,其次就是现在

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:458345782,欢迎添加,了解课程介绍,获取学习资源

如果你对大数据感兴趣,那么走过路过都不能错过时代的脉搏,和在时代脉搏下高于行业平均水平一大截的薪资

数据工程师是做什么的?

数据工程师负责创建和维护分析基础架构,该基础架构几乎可以支持数据领域中的所有其他功能。他们负责体系结构的开发、构建、维护和测试,如数据库和大型处理系统。作为其中的一部分,数据工程师还负责创建用于建模、挖掘、采集和验证的数据集过程。

为此,工程师需要掌握通用脚本语言和工具,通过利用和改进数据分析系统来不断提高数据质量和数量。

数据工程师与

数据科学家的区别

虽然在技能和责任方面存在一定程度的重叠,但这两个职位正日益被划分为不同的角色。

数据科学家更关注与数据基础设施的交互,而不是数据基础设施的构建和维护。他们通常负责进行高水平的市场和业务运营研究,以确定趋势和关系,作为其中的一部分,他们使用各种复杂的机器和方法与数据交互并根据数据采取相应的行动。

数据科学家通常精通机器学习和高级统计建模,因为他们希望借助高级数学模型和算法将原始数据转化为可操作、可理解的内容。这些信息通常被用作向决策者说明“大局”的分析来源。

那么,是什么使数据科学家不同于数据工程师呢?一般来说,主要的区别是注重的方向不同。数据工程师更专注于为数据生成构建基础设施和架构;数据科学家更专注于对生成的数据进行高等数学和统计分析。

数据工程师的关键技能

以下是数据工程师需要的一些关键技能。

数据架构的工具和组

由于数据工程师更关心分析基础架构,因此他们所需的大部分技能都是以架构为中心的。

深入了解SQL和其他数据库解决方案

数据工程师需要了解数据库管理,因此,深入了解SQL非常有价值。同样,其他数据库解决方案,如Cassandra或Bigtable,很好的知道您是否打算从事自由职业或雇佣工程,因为并非每个数据库都将建立在可识别的标准中。

数据仓库和ETL工具

数据仓库和ETL经验对这个职位至关重要。Redshift或Panoply等数据仓库解决方案以及熟悉ETL工具(如StitchData或Segment)非常有价值。同样,数据存储和检索的经验也同样重要,因为处理的数据量只是天文数字。

基于Hadoop的分析(HBase、Hive、MapReduce等)

对基于Apache Hadoop的分析有很强的理解是这个领域的一个非常常见的需求,了解HBase、Hive和MapReduce通常被认为是一个需求。

编码

说到解决方案,编码知识在这里是一个明确的优势(也可能是对许多位置的要求)。熟悉Python,C/C++,Java,Perl,Golang,或其他这样的语言是非常有价值的。

机器学习

虽然主要是数据科学家的关注点,但对于数据工程师来说,在某种程度上理解如何处理这些数据也是非常宝贵的。因此,统计分析和基础数据建模的一些知识非常有价值。

虽然机器学习在技术上属于数据科学家,但这方面的知识有助于构建可供您的团队使用的解决方案。这些知识还有一个额外的好处,那就是让你在这个领域非常有价值,因为在这种情况下,能够“双管齐下”会使你成为一个强大的工具。

各种操作系统

最后,对 UNIX, Linux和Solaris的深入了解是非常有用的,许多数学工具将基于这些系统,因为它们对超级微软Windows和Mac的硬件和操作系统功能的root访问权的独特需求。

如何成为一名数据工程师

与其他更传统的职业相比,数据工程通常需要更复杂的学习方法。数据工程师通常拥有计算机科学或信息技术学位,然后进一步使用市场认可的特定的认证计划和培训材料。

因此,尽管你的学位很重要,但它只是一部分;获得适当的证书是非常有价值的。有一些数据工程的认证:

Google的认证专家 - 数据工程。该认证表明学生熟悉数据工程原理,可以作为该领域的助理或专业人员。

IBM认证数据工程师  - 大数据。此认证更侧重于数据工程技能集的大数据特定应用,而不是一般技能,但被许多人视为黄金标准。

来自Cloudera的CCP数据工程师:具体针对Cloudera的解决方案,该认证表明学生具有ETL工具和分析方面的经验。

二级认证,例如MCSE(微软认证解决方案专家),涵盖了广泛的主题,但具有特定的子认证,如MCSE:数据管理和分析。

但在从0到1转行大数据开发的过程中,很多人有过这些经历:

大数据的主流框架Hadoop生态圈技术繁杂深奥,初一看不知道如何入手,再一看还是不知道如何入手,第三次去看就猛打退堂鼓。

很多大数据的书籍和教程,内容往往停留在浅表层面,只是教大家用现成已经装好的工具比如HIVE进行数据查询。这种照葫芦画瓢,却丝毫不讲体系原理的做法,让人误认为大数据很简单。结果一上手,什么都干不了,问题出来后不知道如何处理。

市面上也有一些大数据视频,上来就以谷歌三架马车为例,讲述的都是原理性概念性的东西,异常深奥。对初步接触大数据的人来说,往往会云里雾里......

我们都在与时间赛跑,有什么方法可以让具有一定编程经验、从0到1想转大数据开发的程序员们快速学习相关技能呢?

数据工程师负责创建和维护分析基础架构,该基础架构几乎可以支持数据领域中的所有其他功能。他们负责体系结构的开发、构建、维护和测试,如数据库和大型处理系统。作为其中的一部分,数据工程师还负责创建用于建模、挖掘、采集和验证的数据集过程。

为此,工程师需要掌握通用脚本语言和工具,通过利用和改进数据分析系统来不断提高数据质量和数量。

数据工程师与

数据科学家的区别

虽然在技能和责任方面存在一定程度的重叠,但这两个职位正日益被划分为不同的角色。

数据科学家更关注与数据基础设施的交互,而不是数据基础设施的构建和维护。他们通常负责进行高水平的市场和业务运营研究,以确定趋势和关系,作为其中的一部分,他们使用各种复杂的机器和方法与数据交互并根据数据采取相应的行动。

数据科学家通常精通机器学习和高级统计建模,因为他们希望借助高级数学模型和算法将原始数据转化为可操作、可理解的内容。这些信息通常被用作向决策者说明“大局”的分析来源。

那么,是什么使数据科学家不同于数据工程师呢?一般来说,主要的区别是注重的方向不同。数据工程师更专注于为数据生成构建基础设施和架构;数据科学家更专注于对生成的数据进行高等数学和统计分析。

数据工程师的关键技能

以下是数据工程师需要的一些关键技能。

数据架构的工具和组

由于数据工程师更关心分析基础架构,因此他们所需的大部分技能都是以架构为中心的。

深入了解SQL和其他数据库解决方案

数据工程师需要了解数据库管理,因此,深入了解SQL非常有价值。同样,其他数据库解决方案,如Cassandra或Bigtable,很好的知道您是否打算从事自由职业或雇佣工程,因为并非每个数据库都将建立在可识别的标准中。

数据仓库和ETL工具

数据仓库和ETL经验对这个职位至关重要。Redshift或Panoply等数据仓库解决方案以及熟悉ETL工具(如StitchData或Segment)非常有价值。同样,数据存储和检索的经验也同样重要,因为处理的数据量只是天文数字。

基于Hadoop的分析(HBase、Hive、MapReduce等)

对基于Apache Hadoop的分析有很强的理解是这个领域的一个非常常见的需求,了解HBase、Hive和MapReduce通常被认为是一个需求。

编码

说到解决方案,编码知识在这里是一个明确的优势(也可能是对许多位置的要求)。熟悉Python,C/C++,Java,Perl,Golang,或其他这样的语言是非常有价值的。

机器学习

虽然主要是数据科学家的关注点,但对于数据工程师来说,在某种程度上理解如何处理这些数据也是非常宝贵的。因此,统计分析和基础数据建模的一些知识非常有价值。

虽然机器学习在技术上属于数据科学家,但这方面的知识有助于构建可供您的团队使用的解决方案。这些知识还有一个额外的好处,那就是让你在这个领域非常有价值,因为在这种情况下,能够“双管齐下”会使你成为一个强大的工具。

各种操作系统

最后,对 UNIX, Linux和Solaris的深入了解是非常有用的,许多数学工具将基于这些系统,因为它们对超级微软Windows和Mac的硬件和操作系统功能的root访问权的独特需求。

如何成为一名数据工程师

与其他更传统的职业相比,数据工程通常需要更复杂的学习方法。数据工程师通常拥有计算机科学或信息技术学位,然后进一步使用市场认可的特定的认证计划和培训材料。

因此,尽管你的学位很重要,但它只是一部分;获得适当的证书是非常有价值的。有一些数据工程的认证:

Google的认证专家 - 数据工程。该认证表明学生熟悉数据工程原理,可以作为该领域的助理或专业人员。

IBM认证数据工程师  - 大数据。此认证更侧重于数据工程技能集的大数据特定应用,而不是一般技能,但被许多人视为黄金标准。

来自Cloudera的CCP数据工程师:具体针对Cloudera的解决方案,该认证表明学生具有ETL工具和分析方面的经验。

二级认证,例如MCSE(微软认证解决方案专家),涵盖了广泛的主题,但具有特定的子认证,如MCSE:数据管理和分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容