一、误差思维
一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量 ,误差是不可避免的。只要有估计,就会有误差。
对于上面这样的情况,我们都会给予其一个误差范围,在统计学中也叫置信区间。
二、置信区间和置信水平
置信区间:误差范围
图中黄色横线表示包含总体平均值的区间,红色横线表示不包含总体平均值的区间。
三、大样本如何计算置信区间?
大样本:当一个抽样调查的样本数量大于30。
这时候可以近似看出样本抽样分布趋近于正态分布,因此它符合中心极限定理。
下面以计算全国成年男性的平均身高为例,假设抽取样本100人,平均值167.1cm,标准差0.2cm
1.确定要求解的问题
计算全国成年男性的平均身高范围及精度
2.求样本的平均值和标准误差
3.确定置信水平
4.求出置信区间上下限的值
结论:当我们选用置信水平为%95时,求得置信区间为[167.0608,167.1392],即在两个标准误差范围内,全国成年男性的平均身高为167.0608cm到167.1392cm之间。
5.常用置信水平及其对应Z值(标准分)
四、小样本如何计算置信区间?
小样本:当一个抽样调查的样本数量小于30。
自由度:是指在不影响给定限制条件的情况下,可以自由变换信息的数量。可以将自由度看做估算其他信息时可有的独立信息数量。
在计算自由度的公式中n表示样本数量。
下面是以医院的药物分析为例,已知某种新药物A,现在选取10只小白鼠作为样本注射药物A,对其进行神经刺激并记录反应时间。经过实验发现平均反应时间为1.05秒,样本标准差为0.5秒。
1.确定要求解的问题
新药物A对神经的反应时间范围
2.求样本的平均值和标准误差
3.查找t表格,求t值
计算自由度:df = n-1 = 10 - 1 = 9
这里依然选用置信水平%95,双侧和单侧表示的是t分布中的面积。
4.求出置信区间上下限的值
结论:当我们选用置信水平为%95时,求得置信区间为[0.692,1.407],即在两个标准误差范围内,新药物A对神经的反应时间为0.692秒到1.407秒之间。