写在前面:
有这篇文章是因为单位的一个同事找我帮忙,同事跟我是校友,年龄跟我爸爸差不多,准确来说应该叫“师叔”。他儿子在美国读高三,马上要申请学校,他儿子想学数学,而美国的大学呢在申请的时候最好有一些实践项目。所以同事想让他儿子做一些与数据分析有关的探索,完成一个实践项目。因为之前跟他探讨过大数据的问题,所以他咨询了我,看看能不能给他儿子的课题提供一些帮助。我很乐意的答应了,打算后来给他发一些文章,介绍一些基本的方法。后来想到,碎片化的知识作用实在有限,要想真正的有帮助,我需要系统的整理一番。而我最近正好在练习写作,不如正好也借机锻炼一下自己,写成文章放到网上,也许会帮助更多的高中生。
因为本文的对象是高中生,所以我尽量以高中生的认知水平来写,尽量做到容易理解。又因为我本专业也并不是数据分析,数据分析只是我的一个兴趣爱好,所以有些地方做不到完全的专业,所有的内容也仅是我一家之言,所以本文章仅供参考,不足之处请看官批评指正。
目的:仅提供方法,给高中生一种解答问题的思路。
好,现在进入正题。
1、目标
做一个课题的第一步,首先要找到一个兴趣点,也就是你要研究什么内容?解决什么问题?达到什么目的?
一般建议高中生尽量从周围的生活出发寻找切入点,或者自己熟悉的领域,比如足球、篮球赛事等,同时确保这个领域或行业有公开发表的数据。
如果暂时没有想到感兴趣的问题,可以来Kaggle网看看,它是一个数据科学的大基地,提供很多与数据有关的问题,可以自由选择题目并完成,而且这个网站直接提供了丰富的数据,不用自己再搜集。https://www.kaggle.com/
2、方法:
确定了研究的主题,剩下的就是数据分析的问题。数据分析是有明显的套路的,一般来说,分成5步:
①获取数据
获取数据这一步是最难,也是最关键的,数据质量的好坏直接决定着后文分析的正确与否。一般数据的获得方式有以下三种:
直接用搜索引擎在网页上搜索;
自行搜集(爬虫软件爬取,手工复制,问卷调查等);
购买数据。
②数据初步处理
数据的初步处理可使用excel、spss、R等统计分析软件,其中使用难度分别为excel<spss<R。
这一步主要是因为一般拿到的数据会有空值、重复值、无效值等,也就是脏数据,需要先把数据清洗,挑选出来对我们有用的数据。这一步骤非常繁琐,要占整项分析工作的90%。
数据清洗完之后进行数据整理,做成我们想要的分析模式。
③数据分析
数据分析
4、得出结论
5、数据展示
使用工具:Excel、R、Python或其他数据分析软件。
未完待续……