大数据开发听着挺玄乎的,其实很多公司就是写写SQL,分析分析数据,这也被称作大数据开发。对很多公司的大数据开发而言,平时工作写SQL,使用Hive做离线数据分析,使用UDF、UDAF、UDTF函数处理处理数据,就能完成日常工作任务。
大数据开发哪些事
现在很多招聘岗位,实质上大数据开发岗都是偏向SQL开发,也就是Hive开发。只要掌握ETL数据同步工具,比如kettle工具、sqoop工具能清洗数据就成,连ETL都不用自己写。我以前很多同事就是做这类工作的,他们更偏向传统写HQL,解决问题,当然SQL也不是那么容易些的,有些复杂的SQL没有一定的功底是难以写出来的。
但是话说回来,想有一个好的发展方向,只会写SQL是不行的。有些东西多少都是必须要懂、要会的。就我个人而言,在我工作中或面试中,面试官最常问的一些问题,简单总结一下,大数据要掌握哪些东西?
在我的工作经历中,大数据我什么都做过。从最简单的离线ETL数据开发、到Hadoop的mapreduce开发、到数据仓库开发、到天天写Sql开发(写了半年HQL没摸过代码)、到spark开发、到sparkstreaming实时流处理开发、到flink开发,不同工作阶段做的事情也不一样。当然做的越多对大数据这行理解也深一些。
大数据开发掌握哪些技能?
一、Java部分,掌握Javase部分是必须的。
Javaee部分了解就行。工作四年没一次做过Javaee方面的工作,刚工作时想做后端开发,还被主管diss,你做好大数据的工作就好了,后端有Java工程师负责,少年你要做好本职工作。
二、Hadoop生态。
2.1、Hadoop生态内容可就太多了,入门要先了解Hadoop集群的这套东西,有能力的自己找教程安装一遍集群,这样你才能更好的了解一些底层原理。
当然,你也可以选择不了解这些。但是Zookeeper、HDFS、Yarn这些原理你一定要深入了解一些。尽管工作中很少会用到这些东西,但是面试经常问。
2.2、Mapreduce。我在2017年的时候,做ETL项目的时候用过一次,之后就再也没用过了。我感觉写Mapreduce很复杂,但是大部分代码都是框架,在框架里写业务逻辑就行了。但是Mapreduce的shuffle过程一定要了熟于心,不为别的,因为面试常问。
2.3、Flume日志收集系统和Oozie任务流调度系统。这些也不常用,flume收集日志用经常跟Kafka结合做实时日志处理用,会用flume收集日志,能把数据抽进kafka里就行。oozie也是在做ETL项目时用到过一次,后面都是借助各种云开发,第三方的云自带各种任务调度系统,在他们云上应用层开发配置。
三、Spark
Spark做离线开发,基于内存速度快。可以用java开发、可以用scala开发、也可以用python开发。选择一种自己擅长的语言进行开发,完成项目或日常工作就行。我一般用scala开发,使用java感觉太繁琐了。
SparkSql,使用spark代码写Sql,跟平时写Sql一样,很有意思的玩法,你会喜欢SparkSql的,比单纯写Sql有意思多了。
SparkStreaming实时处理,这些需要结合Kafka使用,就是做实时数据处理用的,一定要认真学习Spark。
四、数据库和存储系统
数据库系统,这个必须必须要会,大数据基础就是这些。包括Msyql、Oracle、Postgresql、Hive、Hbase、Redis、ElasticSearch等。把这些放在一起说,因为大数据开发最常跟这些打交道。
Msyql、Oracle、Postgresql传统数据库,你会写Sql就成,因为对后台开发来说,数据库操作基本都是必懂的。
Hive离线分析型数据库,一般用来做数据分析使用,工作中写HQL,一种类Sql语句(大同小异),但经常会写UDF函数,处理一些数据。
Hbase列式存储数据库。主要用来做海量数据存储查询用的,海量数据达到TB、PB级别的数据。大数据量的快速查询。Rowkey的设计,预分region,热点问题呀等都是重点考察对象。一定要搞明白了Hbase。
Redis内存缓存数据库。了解Redis的机制,主从、哨兵模式、缓存穿透、雪崩等等,掌握Redis是很有必要的,网上一搜一堆资料,很容易学习。
ElasticSearch全文检索系统。快速检索文本内容,ES大数据最常用的存储系统之一,必会。
工作四年中最常用的就是以上这些数据库和存储系统,其他的没怎么用过和接触过。
五、其他必备技能
1、Linux操作系统,命令最好自己跟着敲一遍,有些常用的命令一定要会。
2、Kettle或Sqoop工具,这个工作中学习使用就行了,很多公司并不用这些工具。
3、Flink这个有能力,学习学习是极好的(我是工作需要才开始自学的)。
4、Python目前正在自学中,当然你可以选择不学。
写在最后
像数据仓库开发,数据倾斜问题、Spark内存的优化等这些都是建立在你会了上面的基础上才能继续研究学习的。
比如,数据仓库 。数据仓库建模(星型模型、雪花模型、维表、事实表等选择设计,数据仓库分层问题等)、数据仓库的设计规范。从ODS源数据层、到DWD数据明细层、到DWS数据汇总层、到ADS数据应用层、到DIM数据维度层等,这些都是根据公司业务来设计的,不同公司数据仓库建模也是不一样的。数仓是一个很大的方面,细节问题真的非常多。