偶然间翻出来了18年学习jimmy的”直播我的基因组系列“所做的一些理解,文章写于18.7.30,因为当时感觉工程浩大,所以迟迟没有发出来,但现在我想,“攒着攒着就烂了”,好的内容不能浪费,不踏出第一步,之前的努力就都白费了。当然自己可能还有一些理解不到位的地方,后续内容会补充完整
关于基因组
正常人都是有22对常染色体加XY性染色体。基因组是指生物体所携带的一套完整的单倍体序列,也就是22条+X+Y。每个染色体包括全套基因和间隔序列。他们由A、T、C、G碱基组成,总共长度大约是30亿个碱基。
关于基因检测
随着社会的发展,人们对于健康愈发重视,开始涌现了大量的基因检测,它的个性化定制再加上后续的医师指导,更加准确和便捷获得自身健康信息,预计未来会代替传统体检。
基因检测是在分子水平上对人体遗传密码进行破译,通过单核苷酸多态性和GWAS的分析对人体患病风险进行预测,从而进行预防干预及个体化治疗。目前全基因组测序成本(30X)已经不足一万元,这种测序就是来检测全部的30亿个碱基对是如何排列的,得到从第一个到第30亿个碱基的排列方式。
全基因组检测帮助确诊引起某个疾病的病因,尤其是癌症病人;或者指导有家族性后发遗传病的病人进行有针对性的治疗,比如安吉丽娜·朱莉接受预防性的双侧乳腺切除。
怎么测: 最常用illumina的二代测序,测序长度在150-250bp,取几百万的细胞破碎后,把所有的染色体随机打断成小片段,一个个进行测序,会测得上亿个片段
【还有一种是三代测序,不需要PCR过程,直接对每一条DNA分子进行测序,长度1w-5w nt(因为没有经过PCR,一直是单链状态测,所以不存在碱基对bp,只能称之为碱基nt),准确度要低一些】
测哪里: 也就是测序的样本从哪里获得?
唾液?:唾液肯定可以提取出DNA,而且也最方便。但是会混在口腔微生物的DNA,即使后来通过比对人类参考基因组来去除污染,但最后大概三成数据是要被浪费的。目前基于取唾液兴起的基因检测是测一部分高频变异位点,那不是做的全基因组测序,是利用基因芯片技术进行,成本在三位数
血液?除非提供者正患有菌血症(外界的细菌经由体表的入口或是感染的入口进入血液系统后,在人体血液内繁殖并随血流在全身播散),一般血液是最纯净的。从血液里面分离白细胞然后提取DNA的技术也是非常成熟的。
测序报告:
处理流程
数据来源:
一般推荐:全基因组测序,覆盖度30X,也就是90G的raw data,测序策略是PE150,采用illumina的HiSeq X,DNA小片段文库(350bp)进行建库。
几个名词:
-
覆盖度30X:平均下来能把身体内的30亿个碱基每个都测到30次,因为测序是随机的,必然有一些测序深度高一点,有些低一点
这个30的标准怎么定的?为什么不是20X或者更高的40、50X?
有研究做过饱和度分析~看看5~60X的模拟梯度对寻找遗传变异的能力差异大小,结果发现平均深度达到30X的时候,可以覆盖基因组的95%;另外测序深度越高,价格越贵,30X的高性价比足够挖掘到一定量的遗传变异Sequencing depth and coverage: key considerations in genomic analyses - Nature Reviews (2014) 90G raw data:测序深度30X,人类基因组大约30亿碱基,而一亿108 就等于1Gb的测序数据;拿到的就是3Gb*30X=90Gb。【注意这里的Gb是测序字符的数量】
测序策略PE150:也就是标准的双端测序模式(Paired End),目前双端比单端价格还要便宜,而且一条序列这边测一次,另一边测一次,更准确。所以一般分析基本也没有用单端的了。150就是这边测150bp,那边测150bp。【当然打断的片段一般是大于300bp的,所以每个reads中间会有一部分测不到,这就对了!毕竟reads是随机打断,也就是打断的位置不同。虽然这一条reads的中间部分区域测不到,但是另外的reads就能测到。如果说,一条reads长度200却采用双端150bp,那么中间就会有重叠区域,被测了两遍,这在高通量测序中是非常浪费资源的,每次测都是要花钱的啊!】
Hiseq :美国Illumina公司作为二代测序仪生产领先企业,自2006年进军基因测序市场以来,陆续发布了HiSeq,MiSeq,NextSeq,NovaSeq等一系列测序仪器。
Hiseq系列~HiSeq 2000,HiSeq 2500,HiSeq 3000,HiSeq 4000
HiSeq系列测序仪问世以来,以通量高,产量大,生产规模著称,能够快速、经济的进行大规模平行测序,在大型全基因组测序,全转录组,全外显子组测序,靶向基因测序方面优势明显。HiSeq 3000/4000系统基于成熟的HiSeq 2500系统,采用创新的有序流动槽技术最大限度提高效率,3.5天内可完成12个基因组、100个转录组或180个外显子组测序
HiSeq X系列——HiSeq X Five,HiSeq X Ten
HiSeq X Ten系统的问世完成了人类历史上一大里程碑事件——千元基因组时代的到来。HiSeq X Ten系统是由一套共10台超高通量的HiSeq X仪器组成,其中每台仪器可在3天内产生高达1.8 Tb测序数据,即每天高达600 Gb。10台联合工作,每年能带来超过18,000个人类基因组,而每个基因组的价格约为1000美元,让癌症和复杂疾病的研究达到新的水平
至于NovaSeq嘛,应该是17年开始交付使用,被称为“史上最贵洗衣机”的NovaSeq6000,以其酷炫的外形和美丽的价格(100w美金)成为了高端测序领导者,旨在冲刺“100美元基因组测序”。它的通量更高,运行周期48小时,2个flowcell每次产生大于2Tb的数据。另外还有它兄弟Novaseq 5000,差异就是他们的流动槽,5000可以运行S1、S2两种,6000可以运行S1、S2、S3、S4四种,一个S4流动槽每次运行可达到80-100亿数量的reads / clusters。双S4流动槽运行可以不到两天内解码48个人类基因组(6万亿硷基通量),比双S2流动槽通量翻三倍
DNA小片段(350bp)建库:根据公司不同,将DNA用超声波随机打断成一定长度(如350bp),加接头,作为测序前的准备工作,
-
Gb与GB你混了吗:
Gb是测序中的数据量,1 Gigabase= 十亿碱基。人类全基因组测序得到了90G的原始数据,也就是900亿碱基。原始数据是fastq格式,而fastq格式是这样的:第二行中一个碱基对应第四行中的一个测序质量
得到的900亿碱基,也对应900亿个质量值,加起来就是1800亿个字符。
第一行是测序说明,一般是45个字符,也就是说,每一条测序reads中第一行就有大概45个字符。
那么多少条reads呢?根据PE150计算:测序策略是一条reads包括150bp,现在900亿碱基,就对应900亿/150=60亿条reads 。因此第一行总字符是:60亿*45=270亿个字符。
注意到fastq文件共四行,其中1、2、4行的总数量分别为270亿、900亿、900亿,第三行就是一个+,基本可以忽略不计。加起来总共2070亿字符。计算机中,根据编码规则不同,字符与字节对换关系不同。
Fastq文件是ASCII编码文件,其中每一个字符就对应一个ASCII码,也就等于一个字节。计算机的1 GB(Gigabytes) 是10243 个字节
因此,二者对换关系就是:全基因组测序的90Gb对应(2070*108 /10243 )=193GB计算机存储空间。
或者更快的计算: 测序报告会给出reads数,如果测序策略是PE150,那么占用硬盘空间大小就是n(reads)(150+150+45)/10243*
另外,测序仪下机后的数据都是用gz压缩后的文件.fastq.gz,能压缩2.7倍,大概71G左右。
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com