检验正态分布方法的汇总

在数据分析过程中,往往需要数据服从正态分布,正态分布,也称“常态分布”,又名高斯分布,在求二项分布的渐近公式中得到。很多方法都需要数据满足正态分布,比如方差分析、独立t检验、线性回归分析(因变量)等。如果说没有这个前提可能会导致分析不严谨等等。所以进行数据正态性检验很重要。那么如何进行正态性检验?接下来进行说明。


一、检验方法

SPSSAU共提供三种正态性检验的方法,分别是描述法、正态性检验以及图示法,其中图示法包括直方图以及P-P/Q-Q图。



1.1描述法


理论上讲,标准正态分布偏度和峰度均为0,但现实中数据无法满足标准正态分布,因而如果峰度绝对值小于10并且偏度绝对值小于3,则说明数据虽然不是绝对正态,但基本可接受为正态分布。从上表可以看出例子中峰度为1.160绝对值小于10,偏度为-1.084绝对值小于3。说明数据基本可以接受为正态分布。


1.2 正态性检验

SPSSAU的正态性检验包括三种:正态性shapro-WiIk检验、正态性Kolmogorov-Smirnov检验和Jarque-Bera检验。

背景简单描述:调查一个班级的53名学生的身高,判断搜集的数据是否满足μ=140.79,σ=8.6的正态分布。

由于n>50,所以检验方法选择K-S检验或者J-B检验。如果利用K-S检验进行证明,步骤如下:


H0:x服从μ=140.79,σ=8.6的正态分布

H1:x不服从μ=140.79,σ=8.6的正态分布

附表如下:

(图片来源于:网络侵删)

因为样本超过35,并且α=0.05,所以D约为1.36/

≈0.187;

相应指标

首先计算K-S检验中的D统计量,计算公式如下:

【D=max left{D^{+}, D^{-} ight}】

【D^{+}=left|F_{n}left(x_{(k)} ight)-F_{0}left(x_{(k)} ight) ight|】

【D^{-}=left|F_{n}left(x_{(k)} ight)-F_{0}left(x_{(k-1)} ight) ight|】


首先将数据按从小到大进行排序,用x进行描述,k代表次序,然后计算其标准化的数据,标准化公式为:

【x^{prime}=rac{x-mu}{sigma}】

接着算出每个数据的频次,并记录好累积频次,然后计算

【F_{n}left(x_{(k)} ight)】,

(N为累积频次),n为样本量即例子中的53。
【F_{0}left(x_{(k)} ight)】为给定的累计分布可以利用excel自行算出,函数为:‘=NORM.DIST(x,mean,sd,TRUE) mean和sd就为mu和sigma。进而可以求出
;各个步骤的计算如下:

所以可以算出D为0.218,D大于0.187,所以拒绝原假设,接受备择假设所以不满足。

同时可以使用SPSSAU进行检验更为方便,数据格式如下:

将数据上传到SPSSAU进行分析,操作如下:

分析结果如下:

从上述结果得到,样本量大于50,所以选择K-S检验,发现统计量D为0.218(和计算的一样),p值小于0.05,所以模型显著,拒绝原假设,数据不服从正态分布。

同时SPSSAU还提供了JB检验:

Jarque-Bera检验中,p值小于0.05,所以模型显著,拒绝原假设,数据不服从正态分布(针对SPSSAU提供统计量为卡方值的原因:有证明显示在正态性假定下,JB统计量渐近地服从自由度为2的卡方分布)


1.3 图示法

直方图

直方图若呈现‘中间高,两边低,左右基本对称的钟形图’则基本服从正态分析,但是数据量过少等也可能影响结果导致很难呈现出标准的正态分布,如果是这种情况如果看见‘钟形’也可以可以接受的。上图可以看出,数据呈现的分布并不对称,但是也出现近似‘钟形’曲线,所以也可以勉强接受。


P-P图

P-P图是将观察累积概率作为X轴,将正态累积概率作为Y轴,作散点图,反映实际累积概率与理论累积概率的符合程度。如果散点分布近似‘对角线’则可以认为正态分布,从图中可以看出数据散点分布不是很满足要求,但是也近似为‘对角线’所以勉强接受。


Q-Q图


Q-Q图和P-P图功能一致,分析上大致没有区别。


二、如何进行正态性检验

SPSSAU分析位置

(1)通用方法板块

SPSSAU【通用方法】→描述/ SPSSAU【通用方法】→正态性检验;

(2)可视化板块

SPSSAU【可视化】→直方图/ SPSSAU【可视化】→p-p/q-q图;


三、其它学习资料

正态性检验视频学习资料:https://www.bilibili.com/video/av69017119/

直方图分析方法视须解渎:https://www.bilibili.com/video/av69465913/

P-P/Q-Q图分析方法视频解读:https://www.bilibili.com/video/av69468707/


四、非正态数据怎么办

针对上述几种方法,正态性检验最为严谨,但是实际数据由于样本量较少等原因,即使数据总体正态但统计检验出来也显示非正态,实用性没有图示法直观且接受性没有图示法高,所以在分析中常常图示法应用的比较多,如果在分析中数据严重不正态应该怎么办呢?接下来进行说明。

(1)将数据取对数处理

注意:原数据需要数据大于0,如果不满足也可以取lg(x+k)等。

(2)开根号

(3)取倒数

当数据波动较大时可以优先考虑

(4)Johnson转换

(5) 计量经济学中常用的BOX-COX变换

(6)移除可能异常值

通常情况下,数据经过处理会变得相对“正态”一些;此步可使用SPSSAU的“生成变量”功能即可完成。



或者严重不符合正态分布无法进行分析也可以使用其他分析方法,比如非参数检验等。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容