Lesson 1 - 描述统计学

目录


1. 数据类型

数据是指不同的信息片段.主要分为两类数值数据(Quantitative)分类数据(Categorical)

1.1 数值数据

数值数据采用允许我们执行数学运算(例如计算狗的数量)的数值。

连续和离散

我们可以将数值数据视为连续(Continuous)离散(Discrete)的。

连续数据可以分为更小的单位,并且仍然存在更小的单位。一个例子就是狗的年龄 - 我们可以以年、月、日、小时、秒为单位测量年龄,但是仍然存在可以与年龄关联的更小单位。

image.png

离散数据仅采用可数值。我们互动的狗的数量就是离散数据类型的一个例子。

 
练习

此练习旨在确保你清楚地了解数值连续变量与离散变量之间的差别。以下全部为数值变量。你的任务是勾选所有连续变量。不要勾选离散变量。

image.png

 
 

1.2 分类数据

分类数据用于标记一个群体或一组条目(例如狗的品种 —— 牧羊犬、拉布拉多、贵宾犬等)。

定序和定类

可以进一步将分类数据分为两类: 定序(Ordinal)定类(Nominal)

分类定序数据有排名顺序(例如与狗的互动从很差到很好排序)。
分类定类数据没有排序或排名(如狗的品种)。
 
练习

这个小练习旨在确保你清楚理解了分类定类与分类定序变量之间的差异。以下变量全部为分类变量。你的任务是勾选所有定类变量。不要勾选定序分类变量。

image.png

 

1.3 数值数据和分类数据的比较

image.png

其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。

身高、年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值数据。

性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类数据。

 
练习

请确定下面的数据类型为数值还是分类?

image.png
image.png

 
 

2. 概括统计(用于数值数据)

分析分类数据
分类数据的分析方法通常是查看落入每个组的独立个体的数量或比例。例如,如果我们在看狗的品种,我们会关心每个品种有多少只狗,或者每个品种的狗的比例如何。, 下文中重点在于数值数据的分析.

分析数值数据
数值数据的四个方面
分析数值数据有四个主要方面。

  1. Center 集中趋势测量
  2. Spread 离散程度测量
  3. Shape 数据的形状
  4. Outliers 异常值

2.1 集中趋势测量

集中趋势测量的方式有三种:

  1. Mean 均值
  2. Median 中位数
  3. Mode 众数

均值

均值在数学中通常称为平均数或预期值。我们通过将所有值相加,然后除以数据集中所有测量值的个数来计算均值。

 

中位数

中位数将我们的数据分为两部分,一半低于它,一半高于它。如何计算中位数取决于我们有偶数个还是奇数个观察值。

奇数个值的中位数
如果我们有奇数个观察值,中位数直接是中间的那个数字。例如,如果我们有 7 个观察值并按从小到大排列,则中位数是第四个值。如果我们有 9 个观察值,则中位数是第五个值。

偶数个值的中位数
如果我们有偶数个观察值,中位数中间两个值的平均值。例如,如果我们有 8 个观察值并从小到大排列,则计算第四和第五个值的平均值。

要计算中位数,我们必须首先对值排序

我们使用平均数还是中位数来描述数据集,很大程度上取决于我们数据集的形状以及是否有任何异常值

 

众数

众数指一组数据中出现次数最多的数据值。一个数据集中可能有多个众数,也可能没有众数。

无众数
如果数据集中的所有值出现的频数相同,则不存在众数。如果我们有一组数据集:

1, 1, 2, 2, 3, 3, 4, 4

则没有众数,因为所有观察值发生的次数相同。

多个众数
如果两个(或多个)数字出现的次数都是最多的,则有多个众数。如果我们有一组数据集:

1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8, 9

其中有两个众数 36,因为这两个值都出现了三次,出现频率最高,而其他的值都只出现了一次。

回顾1
表达式与随机变量

image.png

回顾2
直方图对于了解数值数据的不同方面是非常有用的。

image.png

思考3
在集中趋势相同的情况下, 如何区别两个分布图? 考虑离散程度.

image.png

 
 

2.2 离散程度测量

离散程度测量用于告诉我们数据之间的分散程度。常见的离散程度测量包括:

  1. 极差
  2. 四分位差 (IQR)
  3. 标准差
  4. 方差

五数概括法

image.png

对于奇数个值

image.png

对于偶数个值

image.png

 

极差

极差又称全距,是最大值和最小值之间的差值。

image.png

 

四分位差

四分位差Q3Q1之间的差值。

image.png

对于之前的问题如果集中趋势相同的话, 考虑离散程度. 见下图.

image.png

下方的图类型为箱线图, 箱线图相比直方图更善于快速比较, 两个数据集离散程度的关键指标. 但是如果相对比两个分布图的离散程度, 又不想算出每个分布图的所有五个值, 如果只想用一个值来对比这两个分布图的离散程度, 那么最常用的莫过于下面介绍的标准差或方差.

对于非对称的数据集,五数概括法和相应的箱形图是了解数据离散程度的很好方法。箱形图能更容易地比较两组或多组数据。

 

标准差

标准差是最常见的数据离散程度度量之一。它的定义为每个观察值与均值之间的平均差异。标准差是方差的平方根。标准差是与我们的其余数据具有相同单位的度量

image.png

 

方差

方差是每个观察值与均值之差的平方值的平均数。方差的单位是原始数据的平方。

image.png

标准差和方差的几个要点

1.方差用于比较两组不同数据的离散程度。方差较高的一组数据相比方差较低的一组数据,其分布更为广泛。但是注意,有可能只有一个(或多个)异常值提高了方差,而大多数数据实际上比较集中。
2.在比较两个数据集之间的离散程度时,每个数据集的单位必须相同。
3.当数据与货币或经济有关时,方差(或标准差)更高则表示风险越高
4.在实践中,标准差比方差更常用,因为它使用原始数据集的单位。

练习

image.png

 
 

2.3 分布的形状

可以使用直方图判断数据的形状

右偏态

image.png

 

左偏态

image.png

 

对称分布(通常是正态分布)

image.png

 

三种分布总结

形状 均值与中位数 现实世界中的应用
对称(正态) 均值等于中位数 身高、体重、误差、降雨量
右偏态 均值大于中位数 血液中残留的药物量,呼叫中心的电话间隔时间,灯泡多久熄灭
左偏态 均值小于中位数 许多大学的成绩百分比,死亡年龄,资产价格变动

分布中的众数基本上是直方图中最高的直条。根据直方图中的最高峰数量,可能有多个众数。

注意
这里提到的均值与中位数的关系是普遍性的结论,并不适用于所有的情况。具体的关系以数据计算结果为准。

 

五数概括法和直方图类型

image.png

练习

image.png

 
 

2.4 异常值

形状和异常值

异常值是明显偏离我们其余数据点的点。这会极大地影响均值和标准差等度量,而对五数概括法中的第1四分位数、中位数、第2四分位数的影响较小。

image.png

识别异常值

有许多不同的技术用于识别异常值。这里 提供了有关此话题的一篇完整论文。

 

处理异常值

当出现异常值时,我们应该考虑以下几点。

  1. 注意到它们的存在以及对概括性度量的影响。
  2. 如果有拼写错误 —— 删除或改正。
  3. 了解它们为什么会存在,以及对我们要回答的关于异常值的问题的影响。
  4. 当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
  5. 报告时要小心。知道如何提出正确的问题。

异常值处理建议

  1. 绘制你的数据以确定是否有异常值。
  2. 通过上述方法处理异常值。
  3. 如果无异常值,且你的数据遵循正态分布,使用均值和标准差来描述你的数据集,并报告数据为正态分布。
  4. 如果你有偏态数据或异常值,则使用五数概括法来概括你的数据并报告异常值。

边注
如果你不确定你的数据是否是正态分布,有一种称为 正态分位图 normal quantile plots 的图,以及类似 Kolmogorov-Smirnov 检验 的统计方法可以帮助你理解你的数据是否是正态分布。实现这个检验不是本课程的教学内容,但可以稍作了解。


 
 

3. 描述统计与推论统计

描述统计

描述统计 是用来描述收集的数据。集中趋势度量、离散程度度量、分布形状和异常值。我们也可以通过绘制数据图获得更好的理解。

推论统计

推论统计 在于使用我们收集的数据对更大的总体数据得出结论。一个常用的数据收集方法是通过调查。但是,根据所提问题的类型,以及提问的方式,调查可能会有很大偏见。

总体—— 我们想要研究的整个群体。
参数 —— 描述总体的数值摘要
样本 —— 总体的子集
统计量 —— 描述样本的数值摘要

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,265评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,078评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,852评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,408评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,445评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,772评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,921评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,688评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,130评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,467评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,617评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,276评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,882评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,740评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,967评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,315评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,486评论 2 348

推荐阅读更多精彩内容

  • 基本概念 统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于...
    拓季阅读 10,777评论 0 6
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,501评论 1 58
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,884评论 0 3
  • 原生家庭图问句 1请形容一下你父母的关系 2他们的关系怎样影响你?你如何处理这些影响? 3你对婚姻有什么看法?父母...
    航锐珊阅读 145评论 0 0
  • 他看刘云帆身上流转的气息,十分温和,但是又精纯自然。可见是修行上等的木元力功法。这种功法修炼者,最适合疗伤治病,门...
    飄雲阅读 197评论 0 1