本人在美国读完机械工程硕士后,回国后决定转行数据分析师,今天开始把自己的学习过程,见解,以及一些疑惑记录下来。
先说说为什么要学习数据分析,个人在求职过程中发现自己对于数据分析这一块充满了兴趣,所以决定去深入学习和了解,在如今的大数据时代背景下,我发现数据分析这个行业在未来的发展会越来越重要,同时,数据分析的可选择方向也有很多,比如商业分析师,数据挖掘工程师,数据科学,还有人工智能等方向,都可以作为数据分析的未来发展方向,而数据分析则可以作为一个入门。
接下来谈谈个人在数据分析入门时所学习的知识,根据大部分工作岗位要求,主要针对以下几个部分进行学习。
1. 统计学
统计学作为数据分析的入门知识,非常的重要,作为入门,必须要掌握描述性统计以及里面各类图表的应用场景和理解。而再深入到,如线性回归,贝叶斯,假设检验等,则是为以后成为高级数据分析师做铺垫,在未来做到建模和预测时,会用到很多这类知识,同时在未来进阶过程中,学习机器学习的一些经典算法时,也需要这些知识来帮助理解和学习。
参考资料:《商务与经济统计》
2. 数据库语言SQL
SQL语言是数据分析师必不可少的一门分析工具,可以非常灵活的从数据库中提取各种形态的数据,对于数据分析有着非常重要的作用,其中最重要的是要掌握查询语句,便于从数据库中提取数据。(仅个人理解,希望有人能给出一些建议或者指点。)
参考资料:http://www.w3school.com.cn/sql/
3. Excel
Excel作为数据分析的基础,是众多数据分析工具的入门工具,而且它的功能非常的强大,具有非常多的实用性,在快速处理一些数据,快速出图的时候,非常的灵活,也非常的便捷,其中也有很多的函数,包括max,min,average,find,match,vlookup等,可以非常灵活的查询数值或者进行统计分析,同时Excel的数据透视表功能也非常的强大,可以快速的选取所需元素进行分析。非常适合用来做快速的数据清洗,入门门槛低,而且实用性非常强。
参考资料:https://www.zhihu.com/lives/975706314903572480
4. Python/R语言
两大数据分析的主流语言,个人目前主要学习的是Python的Pandas包,所以主要讲讲Python。Python是一款非常便捷的脚本语言,语法简单且灵活,相比于Java,C++,它更易于去快速实现一些需求,基于Python众多的开源包,使得Python更是能更快的完成许多小型的需求开发,例如爬虫等。其中,用来做数据分析的主要是Numpy和Pandas两个包。Pandas是基于Numpy的拓展,而Numpy则是封装了C语言的一个框架,所以运算速度也非常快,在处理大批量数据时也十分有效。同时,Pandas有非常多强大的函数,例如Dataframe类下的drop_duplicated, fillna, mean, groupby等,基本能用SQL实现的查询语句,都可以用Pandas实现。
参考资料:《利用Python进行数据分析》
5. 机器学习算法/数据挖掘
这是本人以后主要想要发展的一个职业方向,因此其中需要学习到很多的机器学习算法和数据挖掘的相关知识,关于这部分本人也只是初步接触了一些基础的算法,如线性回归,决策树,逻辑回归,随机森林等,仅写下参考资料。
参考资料:《吴恩达机器学习》
《数据挖掘导论》
6. 数据分析思维
数据分析思维放在最后讲是因为这是数据分析核心内容,数据分析思维只有通过不断地学习和锻炼才能逐渐养成。数据分析的基本步骤为:提出问题->理解数据->数据清洗->构建模型->数据可视化。其中理解数据以及构建模型,则是数据分析思维的体现。
参考资料:《深入浅出数据分析》
《网站分析实战》
下一章开始正式记录一个完整数据分析流程。