第一周 描述性统计

0x00 前言

参加居士的数据挖掘学习小组,按周产出笔记,这周的学习内容是 【数据的描述性统计】,按照居士的推荐,学习资料主要是【人人都会数据分析这本书】,这周的学习内容主要集中在第三章

0x01 数据的类型

从方便数据处理和分析的角度,常用的数据的分类方式有三种

1、数据的结构属性分类

按照数据的结构数据,数据可分为结构化数据和非结构化数据

  • 结构化数据

结构化数据就是有一定结构的数据,能存储在结构化数据库中,有字段元数据描述的数据,例如:我们常用的关系型数据库,mysql、oracle中的每张表存储的就是结构化数据

  • 非结构化数据

非结构化数据是没有统一的规则的数据,例如视频、图像、文档等

在数据处理的过程中,我们一般处理结构化数据,对于非结构化数据我们也会提取特征去按照处理结构化数据的方式处理,例如人脸识别,人脸图像是非结构化数据,但是我们可以提取人脸图像的特性,例如:肤色、眼睛大小、脸形等特征形成结构化数据处理

2、数据的连续性特征分类

按照连续性特征,数据可分类位连续性数据和离散性数据

  • 连续型数据

连续型数据理论上是可以在一定区间内任意取值,可以精确到任意小数位,例如:每天的销售额,这个数据就是连续的,每天的销售额可以精确到任意位数

  • 离散型数据

离散型数据是隔断的,数据之间不是连续的,在一定区间内,只能取固定的数值,例如:商城每天的人流量,这个数据是固定的整数,不可能是小数

3、数据的测量尺度分类

测量尺度指数据按一定的标准尺度测量得到数据的特征尺度,按照尺度的不同可以分为四类

  • 定类数据

我们通过数据的某些特征,按照一定的尺度标准分为不同的类别,这类数据我们可以分为定类数据,例如,按照学生的生源地,我们可以按照一定的尺度(地域规则)将学生的来源分为南方和北方,活着东方和西方

  • 定序数据

定序数据指按照一定的尺度,数据之间可以按照一定的顺序排列,例如:学生成绩,按照班级进行排序,这些成绩数据就可以定序了

  • 定距数据

定距数据按照一定的尺度不仅能对数据进行分类、排序还能看出数据的差距,例如:学生的成绩,可以分为及格和不及格,同样可以按照名次排序,我们还可以看出未及格的学生成绩距离及格线差多少分,及格的学生成绩高于及格线多少分

所以定距数据比定类和定序数据多了加减的描述

  • 定比数据

定比数据是定据数据的特殊形式,除了分类、排序、加减性质外,还有乘除性质,例如:学生成绩,我们可以按照成绩区间计算成绩好和差的学生比例

数据的分类方法有很多共通的地方,下图是书中的一张总结图,很好的说明了数据类型的关系


image

0x02 数据的描述性统计

虽然数据的分类方法、类型有很多,但是所有的结构化数据都可以从三个维度进行描述:集中趋势描述、离散程度描述、分布形态描述

每个描述维度包含很多描述指标,这些指标适用于不同的数据类型,也就是我们这周重点要了解的概念

1、数据的集中趋势

  • 众数

众数,从字面意思很好理解,就是最多的数,注意,如果数据集合中每个数的出现次数都一样,那么这个数据集合没有众数

  • 中位数

中位数,同样可以从字面意思理解,就是最中间的数,一堆数据有序排列,中位数左边的数和右边的数个数一样,如果一共有偶数个数,中间的数有两个,取平均值

  • 平均数

平均数包括算数平均数、加权平均数、几何平均数

  • 算数平均数

算数平均数是最常见的集中趋势指标,即:数据集之和除以数据的个数

  • 加权平均数

算数平均数是将每个数看作同样重要,有时候并不符合实际情况,所以给不同的数据赋予不同的权值计算出的平均数就是加权平均数,例如:一个数据集合,有k种不同类型,每组的算数平均数分别为x1-、x2-、x3-。。。xk-,每组数据的个数为f1、f2、f3。。。,每组权重也是f1、f2。。。,所以加权平均数为

m=\frac{f_{1} \overline{x}_{1}+f_{2} \overline{x}_{2}+\cdots+f_{k} \overline{x}_{k}}{f_{1}+f_{2}+\cdots f_{k}}
  • 几何平均数

算数平均数和加权平均数是计算加减关系的,而有的数据并不是简单的加减关系,这时候就要用到几何平均数了,假设有n个数据分别为x1、x2、x3。。。

\overline{x}_{j}=\sqrt[n]{x_{1} x_{2} \cdots x_{n}}

例如:生产线上每部分的合格率,总的平均合格率是依赖每部分的合格率,例如a部分合格率为80%,b部分合格率为90%,总的合格率为80%*90%然后开方= 84.8%

  • 分位数

分位数是中位数概念的扩展,除了中位数,最常见的就是四分位数,即将数据集合排序,在四分之一位置的就是第一四分位数,在四分之二位置的就是第二四分位数,也就是中位数,在四分之三位置的是第三四分位数

2、数据的离散趋势

这里按照参考书【人人都会数据分析】的顺序记录

  • 极差

即数据集的极大值和极小值的差值,又称为全距

  • 平均偏差

平均偏差是指数据集中每个数距离平均数的平均差距,即每个数据距离平均数的偏差除以数据个数,因为所有的偏差加起来是0,所以我们采用绝对值来计算,也可以将偏差理解为距离的概念,即每个数据到平均数的平均距离

R_{a}=\frac{\sum_{i=1}^{n}\left|x_{i}-\overline{x}\right|}{n}

  • 方差

平均偏差我们用到的是绝对值来消除负号的影响,我们还可以用到平方来消除负号,这就是方差的概念,即每个数据和平均数的平方和除以数据个数

\sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}

  • 标准差

标准差就是为了消除平方的影响,将方差开方

\sigma=\sqrt{\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N}}

  • 四分位差

四分位差是第一四分位数和第三四分位数的差值

  • 离散系数

离散系数又称为变异系数,指标准差比算数平均数,主要用来比较两个数据集的离散程度,因为数据的方差和标准差和数据本身的大小有关,所以比较两堆数据的标准差大小无法正确衡量两堆数据的离散程度大小,所以闭上平均数就可以消除数据本身大小的影响来比较两者的离散程度

  • 异众比率

异众比率指整个数据集中非众数的个数比数据个数

3、分布形态描述

这里只学习了最常见的正态分布,以及描述分布状态的两个指标

  • 峰态系数

正太分布曲线像个山峰,峰态系数就是描述这个山峰平缓或陡峭的概念,单峰分布可分为尖峰态、常峰态、低峰态,我们把正态分布做为标准,峰度系数为3,尖峰态为峰度系数大于3,低峰为峰度系数小于3

  • 偏态系数

偏度系数是用来判断数据集合的分布是否对称,如果数据集合均匀对称,例如正态分布,偏度系数等于0,是对称分布,当偏度大于0时,称为右偏分布,当偏度小于0时,称为左偏分布

0xff 参考资料

【人人都会数据分析第二章】

异众比率百度百科

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容

  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,470评论 5 8
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 1,809评论 0 6
  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 1,195评论 0 0
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,588评论 -1 5
  • 第一篇是懒人模式... 学习内容:数据的描述性统计 一、集中趋势 1、众数 众数(Mode)是统计学名词,在统计分...
    沉迷学习voritoy阅读 524评论 1 0