正态分布大概是医学中(也可能是所有社会现象中)最常见的一种分布了,它描述了某些比较稳定但又受一些偶然因素影响的现象。
(1)正态分布的曲线是怎样得到的呢?
假定有1 0000 人的身高数据,我们根据所有数值绘制频数分布图:
柱子宽度是1CM,让柱子宽度逐渐变窄,是不是就是正态分布图呢?
其实,正态分布,很难用现实数据模拟的,我们不过是为了一个”相似“而已,统计统计,无非也是概率的问题。
只要理解凡是类似这种样子的形状,都可以用相应的参数进行描述。
(2)正态分布的概率密度函数
我贴一个解释的图片,以上图身高正态分布为例解释:
我认为这样分开讲解,有利于理解,但是不严谨的。特别是最后一段里,密度变化是有拐点的,σ作为变量的时候,它是在两部分都起作用的,也就是即使是瘦高,但是并不是概率密度是一直高的。下图中,胖正态初始阶段是较高的。
(3)正态分布的规律及应用
这是个大招!对于理解GWAS有很大用处!
正态分布中的均数和标准差可以取多个值,所以正态分布的形状也是多种多样的。但无论形状如何变化,其规律都是一定的。在正态分布中,以均数为中心,往左或往右l 倍标准差的面积各约为34.1% 。
为什么士1 倍标准差的面积是68 . 2%而不是78.2%?好问题!
答曰:前人总结好且验证。
在统计学检验中,很多推断都基于正态分布的规律,比如我们经常说P<0.05 认为差异有统计学意义,实际上说的就是正态分布的两侧面积。确切地说,当从均数往左或往右各1.96 倍标准差的时候,对应的左侧和右侧面积之和就是5% 。因为这种概率不是很高,所以认为其是小概率事件。当然根据不同的基数,还有6倍标准差!不详细讨论,后续会讲解。
(4)标准正态分布
在各种形状的正态分布中,有一种非常实用的分布,就是标准正态分布,如下图:
当我们把原始数据进行了标准化后,对标准化数据拟合正态分布,这种正态分布就是标准正态分布。
由于标准化将数据转换成以0为均数、以1为标准差的值,所以标准正态分布就是一个以0为中心、以1为标准差的分布。
其实,标准正态分布相当于把正态分布的规律简化了,因为它的标准差是1,对应的横轴上的数值1 、2 直接就是1 倍标准差、2 倍标准差。所以利用标准正态分布来说明面积规律就更简单了,可以直接说,以0为中心,在正负2的范围内面积约为95.4%; 也可以说,当横坐标的值等于1.96 (或-1.96) 时,对应的右侧(或左侧)面积约为0.025 。