四年大数据开发,自述大数据之路

大数据开发听着挺玄乎的,其实很多公司就是写写SQL,分析分析数据,这也被称作大数据开发。对很多公司的大数据开发而言,平时工作写SQL,使用Hive做离线数据分析,使用UDF、UDAF、UDTF函数处理处理数据,就能完成日常工作任务。

大数据开发哪些事

现在很多招聘岗位,实质上大数据开发岗都是偏向SQL开发,也就是Hive开发。只要掌握ETL数据同步工具,比如kettle工具、sqoop工具能清洗数据就成,连ETL都不用自己写。我以前很多同事就是做这类工作的,他们更偏向传统写HQL,解决问题,当然SQL也不是那么容易些的,有些复杂的SQL没有一定的功底是难以写出来的。

但是话说回来,想有一个好的发展方向,只会写SQL是不行的。有些东西多少都是必须要懂、要会的。就我个人而言,在我工作中或面试中,面试官最常问的一些问题,简单总结一下,大数据要掌握哪些东西?

在我的工作经历中,大数据我什么都做过。从最简单的离线ETL数据开发、到Hadoop的mapreduce开发、到数据仓库开发、到天天写Sql开发(写了半年HQL没摸过代码)、到spark开发、到sparkstreaming实时流处理开发、到flink开发,不同工作阶段做的事情也不一样。当然做的越多对大数据这行理解也深一些。

大数据开发掌握哪些技能?

一、Java部分,掌握Javase部分是必须的。

Javaee部分了解就行。工作四年没一次做过Javaee方面的工作,刚工作时想做后端开发,还被主管diss,你做好大数据的工作就好了,后端有Java工程师负责,少年你要做好本职工作。

二、Hadoop生态。

2.1、Hadoop生态内容可就太多了,入门要先了解Hadoop集群的这套东西,有能力的自己找教程安装一遍集群,这样你才能更好的了解一些底层原理。
当然,你也可以选择不了解这些。但是Zookeeper、HDFS、Yarn这些原理你一定要深入了解一些。尽管工作中很少会用到这些东西,但是面试经常问。

2.2、Mapreduce。我在2017年的时候,做ETL项目的时候用过一次,之后就再也没用过了。我感觉写Mapreduce很复杂,但是大部分代码都是框架,在框架里写业务逻辑就行了。但是Mapreduce的shuffle过程一定要了熟于心,不为别的,因为面试常问。

2.3、Flume日志收集系统和Oozie任务流调度系统。这些也不常用,flume收集日志用经常跟Kafka结合做实时日志处理用,会用flume收集日志,能把数据抽进kafka里就行。oozie也是在做ETL项目时用到过一次,后面都是借助各种云开发,第三方的云自带各种任务调度系统,在他们云上应用层开发配置。

三、Spark

Spark做离线开发,基于内存速度快。可以用java开发、可以用scala开发、也可以用python开发。选择一种自己擅长的语言进行开发,完成项目或日常工作就行。我一般用scala开发,使用java感觉太繁琐了。

SparkSql,使用spark代码写Sql,跟平时写Sql一样,很有意思的玩法,你会喜欢SparkSql的,比单纯写Sql有意思多了。

SparkStreaming实时处理,这些需要结合Kafka使用,就是做实时数据处理用的,一定要认真学习Spark。

四、数据库和存储系统

数据库系统,这个必须必须要会,大数据基础就是这些。包括Msyql、Oracle、Postgresql、Hive、Hbase、Redis、ElasticSearch等。把这些放在一起说,因为大数据开发最常跟这些打交道。

Msyql、Oracle、Postgresql传统数据库,你会写Sql就成,因为对后台开发来说,数据库操作基本都是必懂的。

Hive离线分析型数据库,一般用来做数据分析使用,工作中写HQL,一种类Sql语句(大同小异),但经常会写UDF函数,处理一些数据。

Hbase列式存储数据库。主要用来做海量数据存储查询用的,海量数据达到TB、PB级别的数据。大数据量的快速查询。Rowkey的设计,预分region,热点问题呀等都是重点考察对象。一定要搞明白了Hbase。

Redis内存缓存数据库。了解Redis的机制,主从、哨兵模式、缓存穿透、雪崩等等,掌握Redis是很有必要的,网上一搜一堆资料,很容易学习。

ElasticSearch全文检索系统。快速检索文本内容,ES大数据最常用的存储系统之一,必会。

工作四年中最常用的就是以上这些数据库和存储系统,其他的没怎么用过和接触过。

五、其他必备技能

1、Linux操作系统,命令最好自己跟着敲一遍,有些常用的命令一定要会。

2、Kettle或Sqoop工具,这个工作中学习使用就行了,很多公司并不用这些工具。

3、Flink这个有能力,学习学习是极好的(我是工作需要才开始自学的)。

4、Python目前正在自学中,当然你可以选择不学。

写在最后

像数据仓库开发,数据倾斜问题、Spark内存的优化等这些都是建立在你会了上面的基础上才能继续研究学习的。

比如,数据仓库 。数据仓库建模(星型模型、雪花模型、维表、事实表等选择设计,数据仓库分层问题等)、数据仓库的设计规范。从ODS源数据层、到DWD数据明细层、到DWS数据汇总层、到ADS数据应用层、到DIM数据维度层等,这些都是根据公司业务来设计的,不同公司数据仓库建模也是不一样的。数仓是一个很大的方面,细节问题真的非常多。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350