欢迎关注公众号:oddxix
plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
plink常见格式
- ped
- map
- bed
- fam
- bim
plink需要的格式一般可以从vcf文件转化而来
由以下命令生成ped和map格式
#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink
或者
# vcf转ped和map
plink --vcf file.vcf --recode --out file
ped文件格式
PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:
- Family ID表示家族,同一个家族用同一个family ID表示
- Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本
- Paternal ID表示父本ID, Maternal ID表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。
- Sex表示性别, 1代表male,2代表female, 其他数字表示unknown。
- phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。
通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。
如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必须表示表型值,且也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:
从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:
第一列表示家族,属于同一家族,于是第二列Individual ID要不一样才能保证family ID和Individual ID连起来唯一表示一个样本。由于没有亲缘关系Paternal 和Maternal 都为0 ,性别都为男性
第一列表示家族,属于不同家族,于是第二列Individual ID都用1表示。没有亲缘关系,1和2为男性,3和4为女性。
有时,数据以多种不同的格式:例如,基因型信息只有一个ID列后跟所有SNP数据,其他家族和表型信息驻留在单独的文件中。有时可以直接读取这些文件,而不必重新创建新文件。
--no-fid
表示没有Family ID列
--no-parents
表示没有父母的ID
--no-sex
表示没有性别
--no-pheno
表示没有表型
map文件格式
MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:
- 第一列染色体
- 第二列是SNP的名字
- 第三列是摩尔根距离,不知道就写0
- 第四列是在染色体上的坐标位置
常染色体应编码为1至22.以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。
map文件示例:
为了节省空间和时间,可以制作二进制文件(* .bed)。将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
使用命令:
plink --file mydata --make-bed
产生的结果文件:
.fam和.bim文件仍然是纯文本文件:可以使用标准文本编辑器查看这些文件,.bed文件是二进制文件无法查看。
bed文件格式
这里的bed和我们genome里的区域文件bed完全不同
.bed:Primary representation of genotype calls at biallelic variants. Must be accompanied by .bim and .fam files. Loaded with --bfile; generated in many situations, most notably when the --make-bed command is used. Do not confuse this with the UCSC Genome Browser's BED format, which is totally different.基因型信息。所以转换后就是一个matrix,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。
fam文件格式
Sample information file accompanying a .bed binary genotype table. 样本信息。每一行就是一个样本。
bim文件格式
Extended variant information file accompanying a .bed binary genotype table. 每一行是一个变异,及其注释信息。
这将将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
参考:
http://zzz.bwh.harvard.edu/plink/data.shtml#map
https://www.cnblogs.com/zkkaka/p/8931318.html
https://www.cnblogs.com/leezx/p/9013615.html
转载请注明出处:
简书作者:oddxix
微信公众号:oddxix