在描述性统计中,一组数据的特征除了使用集中趋势和离中趋势来描述外,还使用其分布的形状来分析。数据分布形态的测度主要是以正态分布为标准进行衡量,正态分布在数轴上的形态如一个倒钟形,曲线以均数为中心,左右对称,曲线两端永远不与横轴相交,曲线的高峰位于正中央,即均数所在的位置。
一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖峭(qiào)程度和对称性与正态分布曲线相比较,其测试指标包括偏态和峰度。
数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为右偏(或正偏)与左偏(或负偏)两种。
测定偏态的指标是偏态系数。偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。计算公式为:
偏态系数的取值为0时,表示数据为完全的对称分布;偏态系数的取值为正数时,表示数据为正偏态或右偏态;偏态系数的取值为负数时,表示数据为负偏态,或左偏态。
注:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大。
在实际的数据分析过程中,偏度和峰度的作用主要表现在以下两个方面。一是将偏度和峰度结合起来检查样本的分布是否属于正态分布,以便判断总体的分布。如果样本偏度接近于0而峰度接近于3,就可以判断总体分布是接近于正态分布的,用样本来对总体进行测定时就可以看成是正态分布,否则就可以进行否认。二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推算。一般情况下,只要分布不是正态的,算术平均数。众数、中位数之间都存在以下关系。
右偏时:
左偏时:
在偏度适度时,不论右偏还是左偏,三者间的距离有近似的固定关系,即中位数与算术平均数的距离,约等于众数与算术平均数距离的1/3。可得以下关系式: