样本量大的时候做差异性分析容易得到有显著性差异的结论,原因如下图, 求p值的过程中,n越大,Z0也越大,相对应的p就小了。当然这里默认方差变化不大的情况下,因为一般来说很多数据经过平均后方差不会变化很大,相比平均前后的样本量。
下图中的数据,y1和y2的数据量各为1000,y1m和y2m数据量各为100, 是y1和y2每10个10个数据的平均,所以y1和y1m,y2和y2m的平均值相等,他们的方差也是基本没大变化,我们分别对y1和y2,y1m和y2m做下差异性分析,这里用单因素方差分析(anova1),其实用独立样本t-test会得到相同的结果(计算公式形式虽然不一样,但换汤不换药,结果一样的).
结果是,y1和y2的p值为0.0189,他们之间有显著性差别;y1m和y2m的p值 0.4603,fail to reject原假设(H0: 他们之间没差别),不能说他们之间有显著性差别的。
MATLAB代码
y1 = sin([0.01:0.01:10])*10;
y2= y1+0.7;
p = anova1([y1;y2]')
y1m = mean(reshape(y1,10,100));
y2m = mean(reshape(y2,10,100));
pm = anova1([y1m;y2m]')
subplot(2,1,1)
plot(y1,'.')
hold on
plot(y2, '.')
legend('y1','y2')
subplot(2,1,2)
plot(y1m,'.')
hold on
plot(y2m,'.')
legend('y1m','y2m')