前言
第一周是用的脑图写的,等有时间把第一周的也转化为笔记。话不多说,直接上第二周的知识点概括图:
-
1.集中趋势
反映事物特征的数据集合的代表值或中心值
-
1.1众数(Mode)
解析:众数是样本观测值在频数分布表中频数最多的那一组的组中值,主要应用于大面积普查研究之中。
数据集合中出现次数最多的数值被称为众数,众数可以是一个或次数并列最多的多个。
应用场景:从分布角度看,众数是具有明显集中趋势的数值。如果一组数据中存在离群值,中位数和众数一般不受离群值的影响,算术平均数容易受到离群值的影响。
案例:服装生产企业只能参考服装和鞋帽尺寸的众数进行生产才有意义,使用平均数意义不大。此外,房地产行业关心哪种“格局”的房屋销售最好;饮料企业关心哪种“口味”的饮料销量最高;超市老板关心哪种“商品”销售最多等。
-
1.2中位数(Median)
解析:将数据进行排序,形成一个数列。位于数列中间的那个数即是中位数。
例如,现有数据集合{2,3,5,7,8,9,10}和{3,5,7,8,9,10,
11,12},它们的中位数分别为7和8.5。
应用场景:中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。
案例:如果小王经过调查会发现,该公司这个岗位目前有5名员工,他们的月薪分别为3000元、4000元、4500元、6000元和10000元,那么小王应该如何评定这份工作的发展前途呢?
如果月薪是3000元,那么这份工作的收入不高;如果月薪达到10000元,那么这份工作的工资收入就非常好了。
从该公司目前的情况来看,这个岗位的平均月薪为6391元,中位数为4500元,如果看平均工资,这份工作的收入很不错,如果看中位数,那么这份工作的收入一般。从5名员工的月薪来看,差异很大,5000元以下有3人,5000元以上只有两人,所以应该考虑中位数4500元作为这份工作的代表工资,因为平均工资被10000元的员工拉高了,甚至高于排名第二的员工的月薪收入。
-
1.3分位数(Quantile)
解析:指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
四分位数是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
1)第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
Q1的位置=1+(n-1)x 0.25
2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;
Q2的位置=1+(n-1)x 0.5
3)第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
Q3的位置=1+(n-1)x 0.75
应用场景:通过四分位数基本能看出整个样本数据的分布情况,是左偏、右偏还是对称。
案例:假设某个学生某门课程中的分数为54分,无法知道他相对于其他学生的好坏;如果54分恰好对应第70百分位数,我们就能知道大约70%的学生的成绩比他差,而约30%的学生比他高。
-
1.4算术平均值(Arithmetic Mean)
解析:简单算术平均值是最典型、最常用、最具代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数据值个数就得到简单算术平均值。
假设有一组包含n个数值的数据集合,它们的数值分别为x 1 ,x 2 ,…,x n ,该数据集合的简单算术平均值的计算公式为:
应用场景:算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算术平均数。
案例:例:某销售小组有5名销售员,元旦一天的销售额分别为520元、600元、480元、750元和500元,求该日平均销售额。
平均销售额=(520+600+480+750+500) / 5=570(元)
计算结果表明,元旦一天5名销售员的平均营业额为570元。
-
1.5加权平均值(Weighted Mean)
解析:因为简单算术平均值认为所有的数据值都具有同等的重要性,所以每个数据值都具有相同的权重。但是有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。
假设有一个数据集合,总共包括k个不同类别的数据组,各组的简单算术平均值表示为x- 1,x- 2 ,…,x- k ,每个数据组的数值个数分别为f 1 ,f 2 ,…,f k ,每组的数值个数就是每个数据组的权重,那么加权算术平均值的计
算公式可以表示为:
应用场景:当各项权重不相等时,计算平均数时就要采用加权平均数。
案例:比如统计学生某科的综合成绩时,会按平时成绩、期中考试成绩和期末考试成绩分别占20%、30%和50%的比例来计算。再比如做决策时,老板的权重越大,他的话语权就越大。
-
1.6几何平均值(Geometric Mean)
解析:几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。几何平均值被用于各种定比数据的平均值计算,假设有一个定比数据集合,集合中的数值分别为x 1 ,x 2 ,…,x n ,且所有的数值均大于 0,那么该数据集合的几何平均值的计算公式为:
应用场景:有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。
比如总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。
案例:例如,银行的平均存款年利率、汽车工厂每条生产线的平均产品合格率、国家十年来的平均发展速度等。
-
2.离中趋势
指在数列中各个数值之间的差距和离散程度。离中趋势的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度。通过测定离中趋势,可以清楚地了解一组变量值的分布情况。
-
2.1方差(Variance)
解析:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
m = (1+2+3+4+5…+n)/n
s² = ((1-m) ²+(2-m)²+(3-m)+(4-m)²+(5-m)²+…+(n-m)² ) / n
应用场景:方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。因变量是连续变量,自变量是类别变量。研究自变量对因变量的影响时,可以采用方差分析的方法。
案例:如某种农作物的收获量受作物品种、肥料种类以及数量等的影响;选择不同的品种、肥料种类及数量进行试验,看哪一个影响大?并需要知道起显著作用的因素在什么时候起最好的作用。
2.2标准差(Standard Deviation)
解析:标准差是方差的算术平方根,即:方差开根为标准差。
应用场景:标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。方差分析就是解决这些问题的一种有效方法。由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。
案例:标准差可以用来判断基金属性。据统计,今年以来股票基金的平均标准差为5.14,积极型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高。
2.3极差(Range)
解析:R=xmax-xmin (其中,xmax为最大值,xmin为最小值)
应用场景:极差可以反应数据波动范围的大小计算十分简单,但由于没有充分利用数据的信息仅适用于样本的数量较小一般n<10情况。
案例:极差可以用来表示股票大盘的每日波动情况、描述气温的变化幅度等。
2.4平均差(Mean Deviation)
解析:(1+2+3+4+5…+n)/n = m
(|(1-m)| + |(2-m)| +|(3-m)| +|(5-m)| +|(5-m)| +|(n-m)| ) / n = A.D,总体所有单位与其算术平均数的离差绝对值的算术平均数。即每个值与平均数的差的绝对值的和除以项数为平均差
应用场景:平均差是说明集中趋势的,标准差是说明一组数据的离中趋势的.平均差是反应各标志值与算术平均数之间的平均差异,是各个数据与平均值差值的绝对值的平均数;标准差是离均差平方和平均后的方根,更能反映一个数据集的离散程度。
案例:使用平均偏差评价生产线的稳定性。
2.5四分位差(Quartile Deviation)
解析:它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。这个差值区间包含了整个数据集合50%的数据值。
下图是箱线图,矩形的上边线代表第一四分位数所在的位置,下边线代表第三四分位数所在位置,整个矩形部分代表四分位极差。
应用场景:四分差通常是用来构建箱线图 ,以及对概率分布的简要图表概述。 对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数)。在箱线图中,箱子的中间有一条线,代表了数据的中位数。因为箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。所以箱线图经常应用在识别检测异常值方面。
此外箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。
案例:职员薪酬分布
图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。
上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。
-
2.6异众比率(Variation Ratio)
解析:总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
应用场景:异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
案例:譬如,我们通过计算求出一项50人调查中,购买其它品牌饮料(指除可口可乐之外的品牌)的人数达到70%的异众比率,异众比率比较大,那么,说明用“可口可乐”来代表消费者购买饮料品牌的状况,其代表性比较差,其众数代表性就不是很明显。
-
3.相对离散程度
集中趋势指标在表示数据集合的特征时会有不同的缺陷,例如算术平均数会受到极端值的影响,不能完全展现数据集合的特征,离散程度指标可以在一定程度上弥补集中趋势指标的这个缺陷,展示出数据集合的离散情况。
-
3.1离散系数(Coefficient of Variation)
解析:又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
计算公式为:标准差/平均值
应用场景:离散系数是衡量资料中各观测值离散程度的一个统计量。当进行两个或多个资料离散程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
案例:离散系数在概率论的许多分支中都有应用,比如说在更新理论、排队理论和可靠性理论中。在这些理论中,指数分布通常比正态分布更为常见。
-
4.分布形态
-
4.1偏态系数(Deviation Coefficient)
解析:偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
偏态系数的三种情况:
1.零值
偏态系数的取值为0时,表示数据为完全的对称分布。
2.正值
偏态系数的取值为正数时,表示数据为正偏态或右偏态。
3.负值
偏态系数的取值为负数时,表示数据为负偏态,或左偏态。
注意事项:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大。
应用场景:偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画 。一般认为,没有百年以上的资料,偏态系数的计算结果很难得到一个合理的数值。
案例:如某企业员工年收入数据分布。
-
4.2峰态系数(Coefficient Of Kurtosis)
解析:单峰分布可以分为尖峰态、常峰态和低峰态等类型,尖峰态曲线的单峰尖而陡峭,低峰态曲线的单峰则低矮平缓。描述单峰分布曲线的峰度高低和陡峭程度的指标是峰度系数,峰度系数和单峰分布形态之间的关系为:当峰度系数等于 3 时,代表分布曲线是扁平程度适中的常峰态;当峰度系数小于3时,代表分布曲线是低峰态;当峰度系数大于3时,代表分布曲线是尖峰态。正态分布的峰形是模板峰形,也就是常峰态,它的峰度系数等于3,其他分布都是与正态分布进行比较的。下图是三种峰度的分布曲线:
峰度系数计算公式为:
xbar代表总体均值;
F i 代表分组频数;
σ代表总体标准差。
应用场景:峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。
案例:使用峰度与偏度检验政府精准扶贫效果。