1. 常见的基因型数据格式
1.1 Hapmap 数据格式
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|
rs# | alleles | chrom | pos | strand | assembly# | center | protLSID | assayLSID | panelLSID | QCcode | Line1 |
HAPMAP
1.2 VCF数据格式
VCF 包含9列,从第10列开始为每个样本信息。表头##
开头的为注释信息,包含了 VCF 文件的版本信息,以及对INFO
及FORMAT
列的解释。
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
#CHROM | POS | ID | REF | ALT | QUAL | FILTER | INFO | FORMAT | Line1 |
1.3 plink数据格式
2. Tassel软件的安装
Tassel 下载地址:https://www.maizegenetics.net/tassel 。
Tassel
Tassel软件可以直接下载对应平台安装包进行安装。Linux 命令行下还可以使用conda
命令进行安装: conda install -c biobuilds tassel
。
3. 数据格式转换
3.2 VCF到Hapmap
## 添加 -sortPositions 参数,以便在转换之前进行位点排序
run_pipeline.pl -Xms10g -Xmx100g -vcf in.vcf.gz -sortPositions -export out.hmp.txt -exportType HapmapDiploid
从 hapmap 格式到 vcf:
run_pipeline.pl -Xms10g -Xmx100g -h in.hmp.txt -sortPositions -export out.vcf -exportType VCF
exportType 的类型有多种:
Hapmap
HapmapDiploid
HDF5
VCF
Plink
Phylip_Seq
Phylip_Inter
Fasta
Text
ReferenceProbablity
Depth
SqrMatrix
SqrMatrixRaw (for MultiBLUP)
SqrMatrixBin (for MultiBLUP)
Phenotype
PlinkPhenotype
Table
4. 数据过滤
4.1 位点过滤
不建议使用Tassel过滤位点,建议使用 vcftools软件或者自己编写程序对不合格位点进行过滤。
run_pipeline.pl -Xms10g -Xmx100g -h in.hmp.txt -filterAlignMinFreq 0.05 -filterAlignMaxFreq 0.95 -export out.hmp.txt -exportType HapmapDiploid
5. 缺失基因型插补
5.1 使用 FILLIN 方法进行插补
run_pipeline.pl -Xms10g -Xmx100g -FILLINFindHaplotypesPlugin -hmp in.hmp.txt -o Donor
run_pipeline.pl -Xms10g -Xmx100g -FILLINImputationPlugin -hmp in.hmp.txt -d Donor -o out.hmp.txt
按照染色体切分基因型文件
run_pipeline.pl -h file.hmp.txt -separate -export
计算亲缘关系
run_pipeline.pl -Xms50g -Xmx50g -importGuess maize.hmp.txt -KinshipPlugin -method Centered_IBS -endPlugin -export maize_kinship.txt -exportType SqrMatrix