精确的表型检测是关联分析的关键,GWAS对数量性状和质量性状都适用。
1.各类性状的特点及鉴定与考察建议
2.表型的基本处理
2.1 正态性检验
- 关联分析属于线性模型,要求数据必须符合正态分布;
- 正态性检验简单直观的方法是绘制频率分布图,观测数据分布情况;
- 可以使用Shapiro-Wilk方法进行检测;
- 不太符合正态分布的数据有时也可能获得不错的关联结果,需要警惕结果真实性。
2.2 去除极端异常值
极大或极小的异常值可能引起关联结果的异常,在分析前需要去除。
- 排序观察法,适用于表型种类较少时;
- 3sigma规则:均值加减三倍标准差的范围内为正常值,其他为异常值;
-
箱线图:在触须外的值均可以认为是异常值。
2.3 多年多点表型值处理
- 性状遗传力高,受环境影响不大,可以根据多年多点的结果取均值或BLUE值作为该性状的代表值进行分析;
- 若性状遗传力低,受环境影响大,可每年每点单独分析后综合评判结果,在获得定位结果的同时进行G×E分析。
2.4 数据标准化
- 数据标准化针对绝对值较大,且有明显梯度间隔的表型,绝对值较小的比较连续的表型可以不进行标准化,直接用于关联分析。
- 所有标准化都不会也不能影响该组数据本身的大小趋势,因此也不会改变关联结果。
- min-max标准化,也叫离差标准化,也就是常说的归一化,绝对值较大且有明显梯度的数据通常采用该方法,公式为:
- y=(x-min(x))/(max(x)-min(x)),y为标准化后的值,x为原始值;
- min-max标准化后所有的值都在0-1之间。
- Z-score标准化:z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差。
2.5 分类变量的哑变量赋值
-
对于无序分类数据,如花色或果皮颜色等,可以对变量进行哑变量赋值,以红、黄、蓝为例,可依次按如下的方式赋值:
几种方式赋值后分别进行关联分析,获得的结果综合为最终的结果,赋值时需要注意1和0比例不要太悬殊。
引用转载请注明出处,如有错误敬请指出。