Plink_2.文件格式

欢迎关注公众号:oddxix
plink的主要功能:数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。
plink常见格式

  • ped
  • map
  • bed
  • fam
  • bim
    plink需要的格式一般可以从vcf文件转化而来
    由以下命令生成ped和map格式
#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink

或者

# vcf转ped和map
plink --vcf file.vcf --recode --out file

ped文件格式

PED文件主要是储存每个样本的基因型的,每行代表一个样本,每列的具体含义如下:

  • Family ID表示家族,同一个家族用同一个family ID表示
  • Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本
  • Paternal ID表示父本ID, Maternal ID表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。
  • Sex表示性别, 1代表male,2代表female, 其他数字表示unknown。
  • phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。

通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

如果是自然群体,那就把family ID和individual ID都填一样的就行了。父母的ID就填0,代表缺失。
第6列是Phenotype(表型),每个PED文件第六列必须表示表型值,且也只能有这一列表型值。质量性状必须转换为0、1、2。Plink会自己判断表现类型(based on whether a value other than 0, 1, 2 or the missing genotype code is observed)。有几个保留值注意一下:

从第7列开始是Phenotype(基因型,A,C,G,T),可以有很多列,一直往后写,TAB键隔开就好了。
最后做出来就是这个样子了:


第一列表示家族,属于同一家族,于是第二列Individual ID要不一样才能保证family ID和Individual ID连起来唯一表示一个样本。由于没有亲缘关系Paternal 和Maternal 都为0 ,性别都为男性


第一列表示家族,属于不同家族,于是第二列Individual ID都用1表示。没有亲缘关系,1和2为男性,3和4为女性。

有时,数据以多种不同的格式:例如,基因型信息只有一个ID列后跟所有SNP数据,其他家族和表型信息驻留在单独的文件中。有时可以直接读取这些文件,而不必重新创建新文件。
--no-fid 表示没有Family ID列
--no-parents 表示没有父母的ID
--no-sex 表示没有性别
--no-pheno表示没有表型

map文件格式

MAP文件主要是用来记录每个maker(一般为SNP)的位置信息。
每行一个maker,每列的含义如下:


  • 第一列染色体
  • 第二列是SNP的名字
  • 第三列是摩尔根距离,不知道就写0
  • 第四列是在染色体上的坐标位置

常染色体应编码为1至22.以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。



map文件示例:


为了节省空间和时间,可以制作二进制文件(* .bed)。将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)
使用命令:

plink --file mydata --make-bed

产生的结果文件:


.fam和.bim文件仍然是纯文本文件:可以使用标准文本编辑器查看这些文件,.bed文件是二进制文件无法查看。

bed文件格式

这里的bed和我们genome里的区域文件bed完全不同
.bed:Primary representation of genotype calls at biallelic variants. Must be accompanied by .bim and .fam files. Loaded with --bfile; generated in many situations, most notably when the --make-bed command is used. Do not confuse this with the UCSC Genome Browser's BED format, which is totally different.基因型信息。所以转换后就是一个matrix,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。

fam文件格式

Sample information file accompanying a .bed binary genotype table. 样本信息。每一行就是一个样本。

bim文件格式

Extended variant information file accompanying a .bed binary genotype table. 每一行是一个变异,及其注释信息。
这将将谱系/表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)

参考:
http://zzz.bwh.harvard.edu/plink/data.shtml#map
https://www.cnblogs.com/zkkaka/p/8931318.html
https://www.cnblogs.com/leezx/p/9013615.html

转载请注明出处:
简书作者:oddxix
微信公众号:oddxix

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容

  • 在上一篇文章中,分享了有关基因组Phasing的原理,一共有三种,分别是:家系关系分型(Related indiv...
    黄树嘉阅读 6,939评论 3 18
  • 同情心不能泛滥。我们没有足够的能力为我们流出的每一份同情心买单。同情心是一种感情,应该给珍视的人,善待他们。 于漫...
    微妮安阅读 215评论 0 3
  • 莉姐,(长的也有点像相声演员牛莉)一个83年的女生,一一个211重点工程学校毕业的,学水利工程专业,学这个专业,毕...
    臭象象阅读 360评论 1 3
  • Q:我六岁的女儿很爱漂亮,喜欢穿露背装,经常把衣领往下拉,露出肩膀,也常拿我的口红涂抹,这些超龄的表现,让我很担心...
    辅仁淑凡官方微博阅读 242评论 0 0
  • 乱红老师的 今年从小白开始到现在除了参加玲铛老师的课交作业 其它都一直在默默画从来不晒 前几天听了一位简友的建...
    忧远的寂寞阅读 314评论 1 1