在美国,大数据工程师平均年薪达17.5万美元,在中国顶尖的互联网公司里,大数据工程师的薪酬比同级别的其他职位高出30%以上。DT时代来得太突然了,国内发展势头很猛,而大数据相关的人才却非常地有限,在未来若干年内都会是供不应求的状况,因此程序员们,你们的春天到了!
转行也并非一朝一夕的事情,你需要对这个行业有一定的了解,并匹配一下自己的知识和能力结构。
以下是一位在BAT大数据领域打滚了N年后的分析师写下的一些总结和体会给想入行或是刚入行大数据的朋友借鉴学习!
成为数据分析师有哪些要求?
1、理论知识要宽泛,涉及数学、市场和技术。要求及对数据敏感,包括统计知识、市场研究、模型原理等。
2、常规分析工具的使用,包括数据库、数据挖掘、统计分析工具,常用办公软件(Excel、PPT、思维导图)等等。
3、有一定的业务理解能力,能理解业务背后的商业逻辑。因为只有理解了商业问题,才能转换成数据分析的问题,从而满足部门的要求。
4、数据报告和数据可视化的能力。数据分析得再好,如果不能以漂亮的方式“表达”,成效也会大打折扣。
现在大多工作都需要你拥有逻辑分析能力,尤其是对数据的分析理解。在数据化运营理念深入的今天,BAT这样的大型互联网公司强调全员参与数据化运营,把数据分析当作一种能力在培训,也必定是未来趋势。
数据分析师所需具备的能力和知识(从数据分析的4个步骤来理解)
数据分析的四个步骤:数据获取、数据处理、数据分析、数据呈现。
1、数据获取
数据获取看似简单,但是需要把握对问题的商业理解,转化成数据问题来解决,直白点讲就是需要哪些数据,从哪些角度来分析,界定问题后,再进行数据采集。此环节,需要数据分析师具备结构化的逻辑思维。
推荐书籍:《金字塔原理》、麦肯锡三部曲:麦肯锡意识、工具、方法;
推荐工具:思维导图工具(Xmind\百度脑图等);
2、数据处理
数据的处理需要掌握有效率的工具:
Excel及高端技能:日常工作通用,容易掌握,处理10万级别的数据很轻松。
学习高端Excel需要哪些技能?
学习excel是个循序渐进的过程
基础:简单的表格数据处理、打印、查询、筛选、排序
函数和公式:常用函数、高级数据计算、数组公式、多维引用、function
可视化图表:图形图示展示、高级图表、图表插件
数据透视表、VBA程序开发
按照我习惯的方法,先过一遍基础,知道什么是什么,然后找几个case练习。多逛逛excelhome论坛,平常多思考如何用excel来解决问题,善用插件,还有记得保存。
帆软FineReport:专业的报表工具,日常做报表设计一个模板可通用,只要会写SQL就可上手。相比excel做报表,开发的技术要求较少,能很快地开发常规报表、动态报表,并可以放在移动端和大屏查看。
Oracle和SQL sever:企业最常用的千万级别的数据库,熟练掌握SQL语言。
保持不断的技术学习,比如学习新流行的hadoop之类的分布式数据库来提升个人能力,对求职有帮助。
3、分析数据
分析数据往往需要各类统计分析模型,如关联规则、聚类、分类、预测模型等等。
因此,熟练掌握一些统计分析工具不可免:
SPSS系列:老牌的统计分析软件,SPSS Statistics(偏统计功能、市场研究)、SPSS Modeler(偏数据挖掘),不用编程,易学。
SAS:经典挖掘软件,需要编程。
R:开源软件,新流行,对非结构化数据处理效率上更高,需编程。
各类BI工具:
Tableau:可视化工具的鼻祖,对于处理好的数据可作自由的可视化分析,图表效果惊人
大数据BI工具FineBI:类同Tableau,可在前端做任意维度分析;数据可在前端继续处理(计算、筛选过滤等),可对接hadoop之类的大数据平台,数据处理性能较好。
推荐书籍:
1、《说菜鸟不会数据分析》系列,入门级书,初学者最适。
2、《数据挖掘与数据化运营实战,思路、方法、技巧与应用》,内容很系统很全面。
3、《市场研究定量分析方法与应用》,简明等编着,中国人民大学出版社。
4、数据可视化呈现
很多数据分析工具已经涵盖了数据可视化部分,只需要把数据结果进行有效的呈现和演讲汇报,可用word\PPT\H5等方式展现。
学习路线规划
高清完整图文末获取
第一阶段(基础阶段)
Linux学习
Linux操作系统介绍与安装、Linux常用命令、Linux常用软件安装、Linux网络、 防火墙、Shell编程等。
Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)
掌握多线程、掌握并发包下的队列、掌握JVM技术、掌握反射和动态代理、了解JMS。
Zookeeper学习
Zookeeper分布式协调服务介绍、Zookeeper集群的安装部署、Zookeeper数据结构、命令。
第二阶段(攻坚阶段)
Hadoop、Hive、HBase、Scala、Spark、Python
第三阶段(辅助工具工学习阶段)
Sqoop、Flume、Oozie、Hue这些工具的学习主要在CSDN,51CTO以及官网都可以学习。
那如何学习才能快速入门并精通呢?
学习Hadoop生态(MR、Hbase、Spark、Storm等)开发技术,深度讲解了数据挖掘、机器学习相关的算法、神经网络等内容!
而且还把集群需要用到的各种程序进行了打包,根据基础视频可以让你轻松搭建Hadoop完全分布式环境,像在企业生产环境一样进行学习和实践。
再次强调:
1、把数据分析作为一种能力培养,让自己在现在的团队中展现出良好的数据分析能力,为你以后内部转岗做好准备。
2、扎实学好一、两门数据挖掘软件,基于你已有得编程基础,可以学SAS或者R,基本能够满足很大部分企业的需求。
3、多看多想多观察,学习业务职能是这样,细水长流,还需要不断工作积累和广泛的阅读。
最后,希望你能够成为你想成为的人!