1、输入文件
1.1 总览
Parameter | Default | options | Description |
---|---|---|---|
Y | NULL(空值) | User | 表型 |
KI | NULL(空值) | User | 亲缘关系矩阵 |
CV | NULL(空值) | User | 协变量 |
G | NULL(空值) | User | 基因型数据(Hapmap格式) |
GD | NULL(空值) | User | 基因型数据(数字格式) |
GM | NULL(空值) | User | Genotype Map for Numeric Format |
file. Ext. G | NULL(空值) | User | File Extension for Genotype in Hapmap Format |
file.Ext.GD | NULL(空值) | User | File Extension for Genotype Data in Numeric Format |
file.Ext.GM | NULL(空值) | User | File Extension for Genotype Map for Numeric Format |
file.fragment | NULL(空值) | User | The Fragment Size to Read Each Time within a File |
file.G | NULL(空值) | User | The Common Name of File for Genotype in Hapmap Format |
file.GD | NULL(空值) | User | The Common Name of File for Genotype Map for Numeric Format |
file.GM | NULL(空值) | User | The Common Name of File for Genotype Data in Numeric Format |
file.path | NULL(空值) | User | Path for Genotype Files |
file.from | 0 | >0 | The First Genotype Files Named Sequentially |
file.to | 0 | >0 | The Last Genotype Files Named Sequentially |
1.2 表型数据
用户可以选择在GAPIT中对多个表型执行GWAS。这是通过在表型数据的文本文件中包括所有表型来实现的。第一列应该是物种的群体或品系,其余的列为观察到的表型值。丢失的数据应该用“NaN”或“NA”表示。该文件应该以“Tab”键分隔;第一行应该由列标签组成,列标签需指明表型名称。
在R中可以键入以下命令来导入表型数据:
myG <- read.table("mdp_genotype_test.hmp.txt", head = FALSE)
教程数据(mdp_traits.txt)中的前十个观测值显示如下:
1.3 基因型数据
基因型数据对于GWAS是必需的,但对于基因组预测是可选的。在后一种情况下,使用由用户提供的亲属关系矩阵执行基因组预测。GAPIT接受标准HapMap格式或数字格式的基因型数据。
1.3.1 Hapmap格式
HapMap是存储序列数据的常用格式,其中SNP信息存储在行中,分类单元信息存储在列中。这种格式允许将每个分类群的SNP信息(染色体和位置)和基因型存储在一个文件中。前11列显示了SNP的属性,其余列显示了在每个SNP处观察到的每个分类群的核苷酸。第一行包含标题标签,其余每行包含单个SNP的所有信息。
在R中可以键入以下命令来导入表型数据:
myG <- read.table("mdp_genotype_test.hmp.txt", head = FALSE)
来自教程数据(mdp_genotype.hmp.txt)的前七个SNP的前五个人如下所示。
尽管前11列都是必需的,但GAPIT只使用了其中的3列:“rs”列,它是SNP名称(例如。“PZB00859.1”);“chrom”列,它是SNP的染色体;以及“pos”,它是SNP的碱基对(Bp)位置。在剩下的8列中用“NA”填充所需信息就足够了。为了与HapMap命名约定一致,缺失的基因型数据用“NN”(双位)或“N”(单位)表示。
对于HapMap格式的基因型数据,GAPIT接受双位或标准IUPAC代码(单位)的基因型,如下所示:
Genotype | AA | CC | GG | TT | AG | CT | CG | AT | GT | AC |
---|---|---|---|---|---|---|---|---|---|---|
Code | A | C | G | T | R | Y | S | W | K | M |
默认情况下,执行HapMap数字化,以便等位基因效应估计的符号(在GAPIT输出中)相对于字母顺序第二的核苷酸。例如,如果SNP上的核苷酸是“A”和“T”,那么正的等位基因效应表明“T”是有利的。在GAPIT()函数中选择“Major.allele.zero=true”将导致等位基因效应估计的符号与次要等位基因有关。在这种情况下,积极的等位基因效应估计将表明次要等位基因是有利的。
1.3.2 数字格式
GAPIT还接受Emma使用的数字格式。列用于SNP,行用于分类群。此格式在Excel中有问题,因为典型分析中使用的SNP数量超过了Excel列限制。此外,这种形式不包含SNPs的染色体和位置(物理或遗传)。因此,必须向GAPIT提供两个单独的文件。一个文件包含数字基因型数据(称为“GD”文件),另一个文件包含每个SNP在基因组中的位置(称为“GM”文件)。注:“GD”和“GM”文件中的SNP需要顺序相同。
在“GD”文件中,纯合子用“0”和“2”表示,杂合子用“1”表示。介于“0”和“2”之间的任何数值都可以表示推定的SNP基因型。第一行是包含SNP名称的头文件,第一列是分类群名。
通过键入以下命令行将此文件读入R:
myGD <- read.table("mdp_numeric.txt", head = TRUE)
来自教程数据(mdp_numeric.txt)的前六个SNP的前五个个体如下所示。
“GM”文件包含每个SNP的名称和位置。第一列是SNP id,第二列是染色体,第三列是碱基对位置。如本例所示,第一行是头文件。
通过键入以下命令行将此文件读入R:
myGM <- read.table("mdp_SNP_information.txt", head = TRUE)
1.4 kinship
亲属关系矩阵文件(在GAPIT中称为“Ki”)被格式化为n×n+1矩阵,其中第一列是分类单元名称,其余列是正方形对称矩阵。与其他输入数据文件不同,亲属关系矩阵文件的第一行不包含标题。
通过键入以下命令行将此文件读入R:
myG <- read.table("mdp_genotype_test.hmp.txt", head = FALSE)
1.5 协变量
包含协变量的文件(在GAPIT中称为“CV”)可以包括诸如群体结构(通常称为“Q矩阵”)之类的信息,这些信息作为固定效应适用于GWAS和GS模型。这些文件的格式类似于第2.1节中提供的表型文件。具体地说,第一列由分类群名组成,其余列包含协变量值。第一行由列标签组成。第一列可以标记为“分类群”,其余列应该是协变量名称。
通过键入以下命令行将此文件读入R:
myG <- read.table("mdp_genotype_test.hmp.txt", head = FALSE)
1.6 按文件名导入基因型
基因型数据可能太大,不符合内存要求。它还可以保存为多个文件,例如每个文件来自一条染色体。GAPIT能够通过它们的文件名导入基因型。文件名必须按顺序命名(例如,“mdp_基因型chr1.hmp.txt”,“mdp基因型_chr2.hmp.txt”,…)。。用于HapMap格式。通过“file.G”、“file.Ext.G”将通用文件名(例如,“mdp_genetic_chr”)、文件扩展名(例如,“hmp.txt”)传递给GAPIT。起始文件和结束文件由file.from和file.to参数指定。当文件不在工作目录中时,可以通过file.path参数将文件路径传递给GAPIT。
对于数字格式,基因型数据文件的通用名称和扩展名分别通过“file.GD”和“file.Ext.GD”参数传递给GAPIT。类似地,基因型映射文件的通用名称和扩展名分别通过“file.GM”和“file.Ext.GM”参数传递给GAPIT。