首先来了解下什么是频数表,如下图
频数表(frequency table):是一种非常直观的方法,但是比较粗糙
频数表构建步骤:
1、分组:确定组数 如15~20 为一组 20~25为一组
2、确定组距 组距即为5 组距 ≈ 极差/组数(极差就是最大值与最小值之差)
3、确定各组段的上下线,起点称为下线,终点称为上线
从这个表里我们可以看出高峰组段(或平均水平)在什么位置出现(集中趋势),数据的分布范围是什么,最大最小值在哪里,分散程度有多大(分散趋势)。
在统计学里我们一般按照集中趋势和离散趋势分别对连续变量进行统计描述。
一、集中趋势的描述指标
平均数:描述一组数据在数量上的平均水平;总体平均数用 μ表示 样本平均数用 X拔
适用范围:对称分布资料,特别是正态分布资料
Excel函数 Average()
中位数:排列一下顺序。取数据最居中的那个数的值或者两个的平均值。也被称为二分位数,用M表示
优点:它的位置是平均数,不受极端值的影响
缺点:1、不是所有人都能理解 2、会损失很多信息 3、不稳定
适用范围:样本量大的情况,分布不均,平均数用不了的情况
Excel函数 Median()
几何均数:在医学、化学领域经常会遇到一种特殊资料,其数值呈等比方式记录,本身为正偏态分布,但是如果进行对数变换,则数据呈正态分布
计算方法:先用对数 变成整体分布 求算数平均数 再把算数平均数幂 回来 就是几何平均数 用G表示
Excel函数 Geomean()
众数:指的是所有数值里出现最多的那个数
Excel函数 Mode()
截尾均数:去掉最低5%的值 最高5%的值 再求算数平均数 从而避免极端值的影响
Excel函数 Trimmean()
二、离散趋势的描述指标
全巨(Range):最大值最小值之差
优点:1、容易理解 2、适用范围广
缺点:不稳定
方差(Variance):离均差(个体值-总体均数)的平方和除以样本量
Excel公式:Var.p()
标准差:方差开根号
总体标准差
Excel公式:Stdev.p()
样本标准差
Excel公式:Stdev.s()
变异系数:解决了不同资料间变异程度对比的问题 (标准差 除以 样本均数)
百分位数:先排序。是一种位置指标,用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比他小,(100-x)%的观察值比他大。P20代表排在前20%的位置;常用的百分数有P2.5 ,P5 ,P10 ,P25 ,P50 ,P75 ,P90 ,P95 ,P97.5
Excel公式:PERCENTILE.INC()
四分位数:P25、P50、P75将一组数据分为四段
四分位间距:非对称分布一个很好的描述指标,正好将样本值四等分,且P25和P75中间包括了50%的观察值,因此四分位间距既排除了两侧极端值的影响,又能够反映较多数据的离散程度。
Excel函数 QUARTILE.INC()
根据分布形状是否对称,曲线是光滑曲线还是 特殊形状;正、负偏还是左、右偏 (高峰组段在左侧叫正偏,反之叫负偏)。针对某种分布形状进行进一步的特征描述,常见的是用于正态分布的两个指标。
偏度系数(Skewness):正态峰 正偏态 负偏太
峰度系数(Kurtosis):正态峰 平阔风 尖峭峰