要学习这一节,首先是要学习什么是主成分,什么是聚类
这个我一直有点搞混,可以百度谷歌查一查
http://www.cnblogs.com/pinard/p/6239403.html
//www.greatytc.com/p/794e91f60170
聚类这一块我做了,似乎结果不理想,以后参考这个http://www.cog-genomics.org/plink/1.9/strat#cluster
这里我着重介绍如何用plink做主成分http://www.cog-genomics.org/plink/1.9/strat#pca
PLINK 1.9 provides two dimension reduction routines: --pca, for principal components analysis (PCA) based on the variance-standardized relationship matrix, and --mds-plot, for multidimensional scaling (MDS) based on raw Hamming distances. Top principal components are generally used as covariates in association analysis regressions to help correct for population stratification, while MDS coordinates help with visualizing genetic distances.
感觉这一块学的不是很懂,我先继续走下去,后面再来补充
似乎如果已经定义了种群和聚类,可以在各个类中继续做PCA
这里我先不管,继续
plink --bfile clean --pca 5 --out clean
过程如下
产生两个文件
eigenval eigenvec
这个文件是看每个主成分可以解释多少基因的变异
这个文件是每个个体在每个主成分上的投影
这一章的内容我是为了做EigenGWAS 做准备