统计检验:p值,p值指的碰巧是拒绝零假设机会。P值越大假阳性越低,同时真实结果也可能会剔除。
注: 基因表达分析的零假设是: 基因在不同处理下的表达量相同。
对于基因芯片的数据而言,由于样本服从正态分布,所以可以用t-test(双处理)或anova分析(多处理以上)。
T检验适用于只有两个处理的实验设计,如植物叶片在相同处理第一天和第二天的基因表达差异。
进行T-test检验时要注意:是双尾检验(存在差异)还是单尾检验(显著性上调或下降),两个样本的总体是不是等方差(标准T检验还是Welch’s test)
双尾t检验与单尾t检验的区别
含义不同
- 双尾检验,也称双侧检验,只强调差异不强调方向性(比如大小,多少)的检验叫双尾检验。如检验样本和总体均值有无差异, 或样本数之间有没有差异,采取双侧检验。
- 单尾检验,也称单侧检验,强调某一方向的检验叫单尾检验。如当要检验的是样本所取自的总体参数值大于或小于某个特定值时,采用单侧检验方法。
研究假设不同
- 双侧检验:研究假设是检验两参数之间是否有差异 。
零假设:H0: u1= u0;
备择假设:H1:u1≠ u0。
- 单侧检验:研究假设中有一参数和另一参数方向性的比较,比如"大于"(或“小于”)、"好于"(或"差于")等。
零假设 H0: u1= u0;
备择假设 H1: u1> u0
(或 H1: u1< u0 )
用法不同
- 双尾检验:从专业知识判断, 如果不清楚后测数据是否高于前测数据,研究目的是想判断前后测的均值是否不同,就需要用双尾检验。
- 单尾检验:从专业知识判断,如果后测数据不可能低于前测数据,研究目的是仅仅想知道后测数据是不是高于前测数据,则可以采用单尾检验。
总结
根据是否强调检验的方向性,将检验分为单侧检验和双侧检验。
双侧检验只关心两个总体参数之间是否有差异,而不关心谁大谁小。如研究者关心的是某中学中高三重点班学生和高三学生总体的平均智商是否有差异,而不是该重点班学生的平均智商是不是高于全体高三学生的平均水平,要用双侧检验。
单侧检验则强调差异的方向性,即关心研究对象是高于还是低于某一总体水平。若研究者想检验是否重点班学生的平均智商要高于全体高三学生的平均水平,这时要用单侧检验。
参考:>简述双尾检验和单尾检验有何区别_360问答 (so.com)
t检验是用t分布理论来推论差异发生的概率,是通过统计检验分析两个群体差异的方法之一。
t检验分为单样本检验和双样本检验两种。
单样本检验
单样本t检验是指已知总体平均数、样本数据的均值和标准差,以及样本分布正态。
在R中t检验的函数为t.test
其格式为t.test(x, y = NULL,alternative = c('two.sided', 'less', 'greater'),mu = 0, paired = FALSE, var.equal = FALSE,conf.level = 0.95, ...)
其中,x,y为数据名称,alternative为检验方式(单侧还是双侧),mu为总体平均数,当为配对样本时paired设置为TURE,var.equal为样本方差情况(FALSE为默认情况,即样本方差不相等;TURE为认为样本方差相等),conf.level为置信区间。
双样本t检验
其零假设为两个正态分布的总体的均值之差为某实数,例如检验二群人的身高之平均是否相等。但具体而言,只有两个总体的方差是相等的情况下,才称为student t检验;否则,有时被称为Welch t检验。
另外,双样本t检验又可以分为独立双样本t检验和配对样本t检验
独立双样本t检验
例如,我们需要研究嫉妒的男女性别差异,这种双个独立的样本(男性样本vs女性样本)比较均值的情况就可以说是独立双样本t检验
其代码如下:
t.test(jealou~gender,mydata2)#其中jealou为变量名称,gender为性别,mydata2为变量所在的数据集
其中,t=-2.1264,df=488.02,p=0.03397。说明嫉妒存在着性别差异,具体而言,由于在数据在赋予男性的值为1,女性的值为2,因此,男性的嫉妒水平要显著低于女性。
此外,在默认条件下,t.test不会假设独立双样本具有相同的方差,因此该函数默认地调用Welch t检验方法而不是student t检验。可以看到在上文的Welch t检验中,自由度df=488.02,这是由于方法内对于可能存在的非均等方差的调整。
如果我们要调用student t检验方法,那么我们需要设置参数var.equal=TRUE。
t.test(jealou~gender,mydata2,var.equal=TRUE)
配对样本t检验
检验同一统计量的两次测量值之间的差异是否为零。举例来说,我们使用 Statistics: The Exploration & Analysis of Data书中的数据,研究问题为“青少年母亲在断奶期骨质钙含量是否大于哺乳期的骨质钙含量?”
x <- data.frame(mother="">
b=c(1928, 2549, 2825, 1924, 1628, 2175, 2114, 2621, 1843, 2541),
p=c(2126, 2885, 2895, 1942, 1750, 2184, 2164, 2626, 2006, 2627))
t.test(x$p, x$b, paired=T, alternative='greater')
其中,t=3.2188,df=9,p=0.005255。表明青少年母亲的骨质钙含量在断奶期大于哺乳期。
参考:https://blog.csdn.net/t15600624671/article/details/77936300
Student t-test
Student's t-test 是由William Sealy Gosset 于1908年发表的统计检验方法。常用于检验样本的均值,比如单样本时,检验样本均值是否等于某一数值;双样本时,检验两个样本的均值是否相等。Student's t-test是我们通常所说的t-test (后续不作特别声明,t-test都是指Student‘s t-test),它不仅假设样本来自正太总体同时需要样本方差相等,后来也有一些变种t-test,比如Welch's t-test.
主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
做t检验需要满足的条件:
- 服从正态分布
- 方差齐性(方差是离散量,反映了数据的离散程度,如果两个方差的离散程度相差太大,说明两组数据的离散程度不一致,称为不齐性)
不满足方差齐性用t'检验
shapiro.test()函数检验数据是否服从正态分布
data1 <- sample(1:100,50)
shapiro.test(data1)
# Shapiro-Wilk normality test
#data: data1
#W = 0.94483, p-value = 0.02101 ##(p>0.05不能拒绝原假设,说明这组数据符合正态分布)data1 <- sample(1:100,50)
shapiro.test(data1)
若结果中p值大于0.05,则接受原假设,数据分布符合正态性
方差齐性检验var.test()
var.test只能用于两样本方差齐性检验
var.test()
t检验
两组样本均数的比较(两组样本的t检验)
# 生成两组符合正态分布的数据
data3 <- rnorm(100,3,5)
data4 <- rnorm(200,3.4,8)
##方差齐性检验
var.test(data3,data4)
##F test to compare two variances
##data: data3 and data4
##F = 0.35682, num df = 99, denom df = 199, p-value = 4.166e-08
##alternative hypothesis: true ratio of variances is not equal to 1
##95 percent confidence interval:
## 0.2558764 0.5075954
##sample estimates:
## ratio of variances
## 0.3568206
###可以看到p值远<0.05,方差不齐
#t检验
函数:t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
部分参数说明:
x, y: 我们这里主要讲two-sample 检验,所以x和y两个向量都需要提供,表示两个不同的样本。
alternative: 选择时单侧检验还是双侧检验;
mu: 单样本检验的时候用的参数;
paired: 是否为配对样本检验;
var.equal: 这个参数选择是否样本方差一样,默认时方差不一样,这时候底层实现的是welch's t-test;如果方差一样,选择TRUE,则底层实现的是student's t-test。
t.test(data3,data4,var.equal = F)
# Welch Two Sample t-test
# data: data3 and data4
# t = 0.39341, df = 286.43, p-value = 0.6943
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
# -1.158859 1.737839
# sample estimates:
# mean of x mean of y
# 3.407682 3.118192
###可以看到p>0.05,95%置信区间包括了0(和p>0.05等价),两组数据均值没有统计学差异
样本均数与总体均数的t检验
t.test(data3,mu=3.2) #mu设置总体均数
# One Sample t-test
# data: data3
# t = 0.43198, df = 99, p-value = 0.6667
# alternative hypothesis: true mean is not equal to 3.2
# 95 percent confidence interval:
# 2.453729 4.361636
# sample estimates:
# mean of x
# 3.407682
配对t检验
data3 <- rnorm(200,3,5)
data4 <- rnorm(200,3.4,5)
t.test(data3,data4,paired = TRUE) #paired默认=False
# Paired t-test
# data: data3 and data4
# t = -2.1637, df = 199, p-value = 0.03168
# alternative hypothesis: true difference in means is not equal to 0
# 95 percent confidence interval:
# -2.02744560 -0.09397804
# sample estimates:
# mean of the differences
# -1.060712
参考:链接://www.greatytc.com/p/c4890fc4c2dd
常用统计方法-1:t检验,秩和检验和方差分析 - 简书 (jianshu.com)