数据科学家的修炼之道技能篇

写在新年。看了一本《数据科学家修炼之道》,想想自己还有许多不足,新的一年即将到来,为自己立下flag。全书大而杂,结合自身实际情况总结了一下。

以上这幅图我自己的学习目标,当然这只是一个大方向,在实际情况中可能会有变化。现在对这些要点详细剖析,提醒自己不要忘记为什么来到这里以及怎么来的。

一、编程语言

python我最喜欢的,爬虫利器,瑞士军刀。python的科学计算包非常丰富,用来做一些数据挖掘工作,可以爬一爬生活数据,然后做一些有意义的数据产品。python的Django和Flask框架是我的目标,用来做个人博客练练手。python的深度学习Theano,还没接触过,想打好机器学习的基础再说。
R作为统计学家的必备武器,社区非常活跃,可以和Hadoop、Spark、PowerBI、Tableau等结合使用,ggplot用来做可视化,例如微博的词云分析。R语言也有许多深度学习的包。RMarkdown用来写报告也是一种好选择。
Java学习应用十分广泛,主要还是为了Hadoop,后续学习搜索引擎时需要了解Lucene、Nutch,掌握到JavaSE即可,用来做爬虫也是十分不错的。
Go互联网时代的C语言,还没接触过。既然有谷歌爸爸在力挺,未来数据科学肯定也少不了。目前想法是通过学习其他语言深度学习的框架来摸索用Go语言也写一个深度学习框架。估计比较难,可以先从写爬虫框架开始。

二、机器学习

机器学习的算法已经有了数据挖掘和统计学算法学习的基础,接下来应该继续加强巩固,机器学习和二者紧密相连,其中一个方向也就是目前大热的统计机器学习,往深了就要接触深度学习。机器学习更偏向于学术,好好研读一下李航的《统计学习方法》和周志华的《机器学习》。当然要向谷歌和百度这些巨头看齐,还有微软中国研究院的刘铁岩老师他们的团队,清华大学、哈工大、中科院,北大等高校这方面的团队也非常赞。感觉工业界对于机器学习的学术研究和资金投入都比高校好。
机器学习工具用来将学术上的算法平台化,将来慢慢会有许多便于做机器学习工作的软件和平台,学习软件工具能将我们的算法运用于实际问题中。目前优秀的框架有微软的DMTK、谷歌的TensorFlow、开源的Theano、还有Facebook的Caffe,学习这些框架主要用来做深度学习方面的工作。

三、架构运维

Linux运维,数据科学家既然要会编程,那么就要懂得搭建开发环境,要搭建环境就要懂得运维。如今Hadoop等大数据框架都适用在Linux上,Linux相较于Windows更适合开发人员,Windows一般用来办公和娱乐。
Docker和一些虚拟化技术,可以让我们在搭建环境时更方便,特别是多台机子的分布式。由于占用资源小,可以在笔记本上搭建分布式集群了。

四、大数据平台

HadoopSpark,数据科学必须要了解的,是非常重要的工具,数据都要跑着这上面。Hadoop和Spark的生态圈都很庞大,一时还没接触到,是我今年重点学习的目标,估计够呛~

五、数据库/数据仓库

数据库主要分为关系型数据库和非关系型数据库。MySQL、PostgerSQL是目前互联网公司用的比较多的,用于事务型数据的存储,对数据分析方面不是很好用,不过需要懂得使用,自己做一些小项目的话也要用到。非关系型数据库如Hadoop的HBase就用来存储列式数据,MongoDB和CouchDB用来存储文档型数据,用来做爬虫的社交网络文本数据存储,用Neo4j等图数据库来分析社交网络的关系,Redis来做分布式爬虫。
数据仓库目前在研究的是SQLServer的数据仓库解决方案,大数据的数据仓库方案还没有头绪。微软的战略越来越侧重于移动BI,正大力推广PowerBI,SQLServer还是运用于大公司方面,不过个人用来做学术型研究,了解商务智能。

六、可视化

Tableau/PowerBI都是Gartner魔力象限的领导者,用来做一些本地BI和数据报告。这两种产品都是BI软件里的佼佼者,可视化的图表十分精美,值得学习。
Web可视化是基于B/S的数据展示,D3.js/Echart/Highchart这些JS包通过编程的手段给开发者带来大数据的可视化。
其他诸如R和python的一些包也可以用来做可视化。

七、CS基础

本科不是纯计算机专业,学习的是信息管理与信息系统,虽然也有学过数据结构计算机组成原理计算机网络,不过都很水,现在难得对知识这么渴望,要好好补一补这些基础课程,这三门课也是我新年第一个月要努力拿下的,至于计算机组成原理主要看一些要点,要加把劲了。

八、终极目标

这一部分,主要是回答学习以上技术要用来做什么,也是现实中具体研究要研究的领域。可能将来会有所变数,但心中有个大目标,无论做什么都坚定了。先来想想怎么用Python和Go语言来做搜索引擎吧~


总结

刚也提到了一些学习过程中要有所成果,也就是自己动手做一些项目,比如前段时间就看到有人用爬虫和高德API结合做租房的查询项目,觉得很有意思,自己心里也有许多想做的有意思的事。还有写博客是记录学习过程和分享知识的好方法,将来的博客的目录也会按以上的思维导图来分类。最后flag差不多就这样,2017我来啦!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,123评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,031评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,723评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,357评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,412评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,760评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,904评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,672评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,118评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,456评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,599评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,264评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,857评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,731评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,956评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,286评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,465评论 2 348

推荐阅读更多精彩内容