前言
这是我的第一篇博客,写起来还真是有些小紧张~~~还请有缘看到的朋友多指点!
打算开始写这些东西的契机是师兄给布置的学习记录作业,而我自己这方面的原因倒主要不是记录学习(写这些东西好花时间呀...),而是看到好多大神,尤其是国外的,都在贡献自己的知识,我被他们的精神感染了,也想自己贡献些东西!
大数据相关工作分类
大体可分为四种:
- 运维
- 平台开发
- 数据分析
- 数据科学家
其中,平台开发(大数据工程师),基本是结合公司业务场景及需求,以现已开源的大数据组件为基础,打造公司自己的大数据平台;数据分析则是运用公司的平台,在其之上做些报表和数据变现(听师兄说大公司将平台封装的很好,基本上都是敲SQL);至于运维,自然是为前两者提供集群支持,如资源分配,组件配置优化等。
在这三者之上便是数据科学家啦!之前通过知乎Live得知,这里的数据科学家和大家传统理解的科学家不一样,就只是一个职业称呼。引用知乎上北冥承海生的话:
数据科学家是指能采用科学的方法论,调动充足的计算能力,将大量人类无法处理的数据转化成有用的信息,以驱动自动化业务决策的专家。
其中科学的方法论指的是坚实的理论基础;大量的数据指如行为日志这种海量数据;自动化业务决策是数据科学家的核心工作,体现数据优先与经验,计算优先于人工的价值观。
理论基础方面,北冥承海生推荐了几本书:
- 机器学习:PRML、Deep Learning
- 最优化:Convex Optimization、Numerical Optimization
- 分布式计算:Hadoop/Spark各种书籍和MOOC
其中,最优化好像很重要,因为这些平时遇到的问题,其本质好像都可以归为一个优化问题,更一般的描述是求一个条件极值。
至于将实际问题建成数学模型,及对已知的问题提供现在未知的解决方法,北冥承海生说在学校是学不到的,需要一个大神级mentor悉心指导和经历大量的工程实践...做到这个就能年薪百万啦!当然,钱不钱的无所谓,更重要的是,这不是搬砖,这是人类创造力的体现!在此之上更高级的创造,我想可能是:导向世界(不光人类)需求,体察潜在需求,甚至创造需求!
一激动就扯远了,回归正题。当前大数据行业缺口巨大,有兴趣的朋友也可以看看下面的文章,写得比较务实。