在数据分析学习中,尤其是对于还没有真正进入数据分析行业的新人来说,一个需要面对的挑战就是要找到合适的数据,并提出一个感兴趣的问题。在 Cousera 上中有 Wesleyan大学提供的数据分析专项课程中,提供了一些可以公开使用的的数据集,整理一下,希望能够对大家有所帮助。
由于课程的语言为英文,所以所有的Codebook 也都是英文的,但是并不难,相信有了基本的英文阅读能力都可以读懂。
什么是 Codebook? 在一些数据采集的过程中,会遇到各种不一样的情况,有一些数据是连续性的,或者叫计量资料(quantitative data),有一些数据则是不连续的,或者叫计数资料(categorical data),比如我们想要调查家庭结构对于孩子成绩的影响,那么我们的调查资料中,有关父母情况的数据,可以设定这样一个问题:
你的父亲和你的亲密程度如何?1. 很差 2. 差 3. 还可以 4.好 5.很好。
然而这并不能反应所有情况,如果孩子没有父亲,或者不愿意回答这个问题怎么办?我们还需要加入其它选项,比如:
你的父亲和你的亲密程度如何?1. 很差 2. 差 3. 还可以 4.好 5.很好 6.不想回答 7.不需要回答(没有父亲)8.不知道
这些结果在我们的数据集中,问题会有一个自己的编号,比如 H1WP9,它的答案,就包含了1-8这些数字。我们拿到的数据集,有的时候就是这样的表格。
为了能够看懂这些数字都意味着什么,需要些一个“说明书”,这个说明书,就是 Codebook 。
下面就是一些可以公开使用的数据集和相关的 Codebook:
-
美国国家流行病学会关于酒精和相关症状的研究U.S. National Epidemiological Survey on Alcohol and Related Conditions (NESARC),调查了18岁以上的美国人的酒精使用程度和精神健康情况。
-
关于火星坑的研究,包含了在4.2亿年前到3.8亿年前一段特殊时期,由于小行行、彗星等撞击产生的30万个直径大于1公里的火星坑的数据。
-
国家青少年跟踪研究,收集了美国7-12年级的青少年,有关他们健康和行为的数据,包括个人喜好、家庭情况、朋友、亲密关系、社交情况、学校、邻居和社区等。这个跟踪研究还在进行,有兴趣可以从网站上获取更多数据。课程中提供的是 Wave 1的数据。
-
Gapminder收集了全球各国的经济、健康和发展数据,创始人的 TED 演讲是数据可视化的典范,网站也有很多可以玩的信息。
以上就是我在 Coursera 上发现的公开数据集,想学习如何使用它们练习自己的商业数据分析技能的话,欢迎和我一起上课。课程使用了 SAS 和 python 两种语言,分别做了两个版本,由于我目前正在学习 SAS,所以会优先分享 SAS 的部分,如果你愿意和我一起学习,并更新 python 的部分,欢迎勾搭和交流。