目录
1. 数据类型
数据是指不同的信息片段.主要分为两类数值数据(Quantitative)和分类数据(Categorical)
1.1 数值数据
数值数据采用允许我们执行数学运算(例如计算狗的数量)的数值。
连续和离散
我们可以将数值数据视为连续(Continuous)或离散(Discrete)的。
连续数据可以分为更小的单位,并且仍然存在更小的单位。一个例子就是狗的年龄 - 我们可以以年、月、日、小时、秒为单位测量年龄,但是仍然存在可以与年龄关联的更小单位。
离散数据仅采用可数值。我们互动的狗的数量就是离散数据类型的一个例子。
练习
此练习旨在确保你清楚地了解数值连续变量与离散变量之间的差别。以下全部为数值变量。你的任务是勾选所有连续变量。不要勾选离散变量。
1.2 分类数据
分类数据用于标记一个群体或一组条目(例如狗的品种 —— 牧羊犬、拉布拉多、贵宾犬等)。
定序和定类
可以进一步将分类数据分为两类: 定序(Ordinal)与定类(Nominal)。
分类定序数据有排名顺序(例如与狗的互动从很差到很好排序)。
分类定类数据没有排序或排名(如狗的品种)。
练习
这个小练习旨在确保你清楚理解了分类定类与分类定序变量之间的差异。以下变量全部为分类变量。你的任务是勾选所有定类变量。不要勾选定序分类变量。
1.3 数值数据和分类数据的比较
其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。
身高、年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值
数据。
性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类
数据。
练习
请确定下面的数据类型为数值还是分类?
2. 概括统计(用于数值数据)
分析分类数据
分类数据的分析方法通常是查看落入每个组的独立个体的数量或比例。例如,如果我们在看狗的品种,我们会关心每个品种有多少只狗,或者每个品种的狗的比例如何。, 下文中重点在于数值数据的分析.
分析数值数据
数值数据的四个方面
分析数值数据有四个主要方面。
- Center 集中趋势测量
- Spread 离散程度测量
- Shape 数据的形状
- Outliers 异常值
2.1 集中趋势测量
集中趋势测量的方式有三种:
- Mean 均值
- Median 中位数
- Mode 众数
均值
均值在数学中通常称为平均数或预期值。我们通过将所有值相加,然后除以数据集中所有测量值的个数来计算均值。
中位数
中位数将我们的数据分为两部分,一半低于它,一半高于它。如何计算中位数取决于我们有偶数个还是奇数个观察值。
奇数个值的中位数
如果我们有奇数个观察值,中位数直接是中间的那个数字。例如,如果我们有 7 个观察值并按从小到大排列,则中位数是第四个值。如果我们有 9 个观察值,则中位数是第五个值。
偶数个值的中位数
如果我们有偶数个观察值,中位数是中间两个值的平均值。例如,如果我们有 8 个观察值并从小到大排列,则计算第四和第五个值的平均值。
要计算中位数,我们必须首先对值排序。
我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的形状以及是否有任何异常值。
众数
众数指一组数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能没有众数。
无众数
如果数据集中的所有值出现的频数相同,则不存在众数。如果我们有一组数据集:
1, 1, 2, 2, 3, 3, 4, 4
则没有众数,因为所有观察值发生的次数相同。
多个众数
如果两个(或多个)数字出现的次数都是最多的,则有多个众数。如果我们有一组数据集:
1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9
其中有两个众数 3
和 6
,因为这两个值都出现了三次,出现频率最高,而其他的值都只出现了一次。
回顾1
表达式与随机变量
回顾2
直方图对于了解数值数据的不同方面是非常有用的。
思考3
在集中趋势相同的情况下, 如何区别两个分布图? 考虑离散程度.
2.2 离散程度测量
离散程度测量用于告诉我们数据之间的分散程度。常见的离散程度测量包括:
- 极差
- 四分位差 (IQR)
- 标准差
- 方差
五数概括法
对于奇数个值
对于偶数个值
极差
极差又称全距,是最大值和最小值之间的差值。
四分位差
四分位差为 Q3和Q1之间的差值。
对于之前的问题如果集中趋势相同的话, 考虑离散程度. 见下图.
下方的图类型为箱线图, 箱线图相比直方图更善于快速比较, 两个数据集离散程度的关键指标. 但是如果相对比两个分布图的离散程度, 又不想算出每个分布图的所有五个值, 如果只想用一个值来对比这两个分布图的离散程度, 那么最常用的莫过于下面介绍的标准差或方差.
对于非对称的数据集,五数概括法和相应的箱形图是了解数据离散程度的很好方法。箱形图能更容易地比较两组或多组数据。
标准差
标准差是最常见的数据离散程度度量之一。它的定义为每个观察值与均值之间的平均差异。标准差是方差的平方根。标准差是与我们的其余数据具有相同单位的度量
方差
方差是每个观察值与均值之差的平方值的平均数。方差的单位是原始数据的平方。
标准差和方差的几个要点
1.方差用于比较两组不同数据的离散程度。方差较高的一组数据相比方差较低的一组数据,其分布更为广泛。但是注意,有可能只有一个(或多个)异常值提高了方差,而大多数数据实际上比较集中。
2.在比较两个数据集之间的离散程度时,每个数据集的单位必须相同。
3.当数据与货币或经济有关时,方差(或标准差)更高则表示风险越高。
4.在实践中,标准差比方差更常用,因为它使用原始数据集的单位。
练习
2.3 分布的形状
可以使用直方图判断数据的形状
右偏态
左偏态
对称分布(通常是正态分布)
三种分布总结
形状 | 均值与中位数 | 现实世界中的应用 |
---|---|---|
对称(正态) | 均值等于中位数 | 身高、体重、误差、降雨量 |
右偏态 | 均值大于中位数 | 血液中残留的药物量,呼叫中心的电话间隔时间,灯泡多久熄灭 |
左偏态 | 均值小于中位数 | 许多大学的成绩百分比,死亡年龄,资产价格变动 |
分布中的众数基本上是直方图中最高的直条。根据直方图中的最高峰数量,可能有多个众数。
注意
这里提到的均值与中位数的关系是普遍性的结论,并不适用于所有的情况。具体的关系以数据计算结果为准。
五数概括法和直方图类型
练习
2.4 异常值
形状和异常值
异常值是明显偏离我们其余数据点的点。这会极大地影响均值和标准差等度量,而对五数概括法中的第1四分位数、中位数、第2四分位数的影响较小。
识别异常值
有许多不同的技术用于识别异常值。这里 提供了有关此话题的一篇完整论文。
处理异常值
当出现异常值时,我们应该考虑以下几点。
- 注意到它们的存在以及对概括性度量的影响。
- 如果有拼写错误 —— 删除或改正。
- 了解它们为什么会存在,以及对我们要回答的关于异常值的问题的影响。
- 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
- 报告时要小心。知道如何提出正确的问题。
异常值处理建议
- 绘制你的数据以确定是否有异常值。
- 通过上述方法处理异常值。
- 如果无异常值,且你的数据遵循正态分布,使用均值和标准差来描述你的数据集,并报告数据为正态分布。
- 如果你有偏态数据或异常值,则使用五数概括法来概括你的数据并报告异常值。
边注
如果你不确定你的数据是否是正态分布,有一种称为 正态分位图 normal quantile plots 的图,以及类似 Kolmogorov-Smirnov 检验 的统计方法可以帮助你理解你的数据是否是正态分布。实现这个检验不是本课程的教学内容,但可以稍作了解。
3. 描述统计与推论统计
描述统计
描述统计 是用来描述收集的数据。集中趋势度量、离散程度度量、分布形状和异常值。我们也可以通过绘制数据图获得更好的理解。
推论统计
推论统计 在于使用我们收集的数据对更大的总体数据得出结论。一个常用的数据收集方法是通过调查。但是,根据所提问题的类型,以及提问的方式,调查可能会有很大偏见。
总体—— 我们想要研究的整个群体。
参数 —— 描述总体的数值摘要
样本 —— 总体的子集
统计量 —— 描述样本的数值摘要