0x00 前言
参加居士的数据挖掘学习小组,按周产出笔记,这周的学习内容是 【数据的描述性统计】,按照居士的推荐,学习资料主要是【人人都会数据分析这本书】,这周的学习内容主要集中在第三章
0x01 数据的类型
从方便数据处理和分析的角度,常用的数据的分类方式有三种
1、数据的结构属性分类
按照数据的结构数据,数据可分为结构化数据和非结构化数据
- 结构化数据
结构化数据就是有一定结构的数据,能存储在结构化数据库中,有字段元数据描述的数据,例如:我们常用的关系型数据库,mysql、oracle中的每张表存储的就是结构化数据
- 非结构化数据
非结构化数据是没有统一的规则的数据,例如视频、图像、文档等
在数据处理的过程中,我们一般处理结构化数据,对于非结构化数据我们也会提取特征去按照处理结构化数据的方式处理,例如人脸识别,人脸图像是非结构化数据,但是我们可以提取人脸图像的特性,例如:肤色、眼睛大小、脸形等特征形成结构化数据处理
2、数据的连续性特征分类
按照连续性特征,数据可分类位连续性数据和离散性数据
- 连续型数据
连续型数据理论上是可以在一定区间内任意取值,可以精确到任意小数位,例如:每天的销售额,这个数据就是连续的,每天的销售额可以精确到任意位数
- 离散型数据
离散型数据是隔断的,数据之间不是连续的,在一定区间内,只能取固定的数值,例如:商城每天的人流量,这个数据是固定的整数,不可能是小数
3、数据的测量尺度分类
测量尺度指数据按一定的标准尺度测量得到数据的特征尺度,按照尺度的不同可以分为四类
- 定类数据
我们通过数据的某些特征,按照一定的尺度标准分为不同的类别,这类数据我们可以分为定类数据,例如,按照学生的生源地,我们可以按照一定的尺度(地域规则)将学生的来源分为南方和北方,活着东方和西方
- 定序数据
定序数据指按照一定的尺度,数据之间可以按照一定的顺序排列,例如:学生成绩,按照班级进行排序,这些成绩数据就可以定序了
- 定距数据
定距数据按照一定的尺度不仅能对数据进行分类、排序还能看出数据的差距,例如:学生的成绩,可以分为及格和不及格,同样可以按照名次排序,我们还可以看出未及格的学生成绩距离及格线差多少分,及格的学生成绩高于及格线多少分
所以定距数据比定类和定序数据多了加减的描述
- 定比数据
定比数据是定据数据的特殊形式,除了分类、排序、加减性质外,还有乘除性质,例如:学生成绩,我们可以按照成绩区间计算成绩好和差的学生比例
数据的分类方法有很多共通的地方,下图是书中的一张总结图,很好的说明了数据类型的关系
0x02 数据的描述性统计
虽然数据的分类方法、类型有很多,但是所有的结构化数据都可以从三个维度进行描述:集中趋势描述、离散程度描述、分布形态描述
每个描述维度包含很多描述指标,这些指标适用于不同的数据类型,也就是我们这周重点要了解的概念
1、数据的集中趋势
- 众数
众数,从字面意思很好理解,就是最多的数,注意,如果数据集合中每个数的出现次数都一样,那么这个数据集合没有众数
- 中位数
中位数,同样可以从字面意思理解,就是最中间的数,一堆数据有序排列,中位数左边的数和右边的数个数一样,如果一共有偶数个数,中间的数有两个,取平均值
- 平均数
平均数包括算数平均数、加权平均数、几何平均数
- 算数平均数
算数平均数是最常见的集中趋势指标,即:数据集之和除以数据的个数
- 加权平均数
算数平均数是将每个数看作同样重要,有时候并不符合实际情况,所以给不同的数据赋予不同的权值计算出的平均数就是加权平均数,例如:一个数据集合,有k种不同类型,每组的算数平均数分别为x1-、x2-、x3-。。。xk-,每组数据的个数为f1、f2、f3。。。,每组权重也是f1、f2。。。,所以加权平均数为
m=\frac{f_{1} \overline{x}_{1}+f_{2} \overline{x}_{2}+\cdots+f_{k} \overline{x}_{k}}{f_{1}+f_{2}+\cdots f_{k}}
- 几何平均数
算数平均数和加权平均数是计算加减关系的,而有的数据并不是简单的加减关系,这时候就要用到几何平均数了,假设有n个数据分别为x1、x2、x3。。。
例如:生产线上每部分的合格率,总的平均合格率是依赖每部分的合格率,例如a部分合格率为80%,b部分合格率为90%,总的合格率为80%*90%然后开方= 84.8%
- 分位数
分位数是中位数概念的扩展,除了中位数,最常见的就是四分位数,即将数据集合排序,在四分之一位置的就是第一四分位数,在四分之二位置的就是第二四分位数,也就是中位数,在四分之三位置的是第三四分位数
2、数据的离散趋势
这里按照参考书【人人都会数据分析】的顺序记录
- 极差
即数据集的极大值和极小值的差值,又称为全距
- 平均偏差
平均偏差是指数据集中每个数距离平均数的平均差距,即每个数据距离平均数的偏差除以数据个数,因为所有的偏差加起来是0,所以我们采用绝对值来计算,也可以将偏差理解为距离的概念,即每个数据到平均数的平均距离
- 方差
平均偏差我们用到的是绝对值来消除负号的影响,我们还可以用到平方来消除负号,这就是方差的概念,即每个数据和平均数的平方和除以数据个数
- 标准差
标准差就是为了消除平方的影响,将方差开方
- 四分位差
四分位差是第一四分位数和第三四分位数的差值
- 离散系数
离散系数又称为变异系数,指标准差比算数平均数,主要用来比较两个数据集的离散程度,因为数据的方差和标准差和数据本身的大小有关,所以比较两堆数据的标准差大小无法正确衡量两堆数据的离散程度大小,所以闭上平均数就可以消除数据本身大小的影响来比较两者的离散程度
- 异众比率
异众比率指整个数据集中非众数的个数比数据个数
3、分布形态描述
这里只学习了最常见的正态分布,以及描述分布状态的两个指标
- 峰态系数
正太分布曲线像个山峰,峰态系数就是描述这个山峰平缓或陡峭的概念,单峰分布可分为尖峰态、常峰态、低峰态,我们把正态分布做为标准,峰度系数为3,尖峰态为峰度系数大于3,低峰为峰度系数小于3
- 偏态系数
偏度系数是用来判断数据集合的分布是否对称,如果数据集合均匀对称,例如正态分布,偏度系数等于0,是对称分布,当偏度大于0时,称为右偏分布,当偏度小于0时,称为左偏分布
0xff 参考资料
【人人都会数据分析第二章】