转录组数据分析RNA-seq

RNA-seq

转录组

转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)

转录本测定研究

基于杂交的基因芯片技术

将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。

获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响

基于NGS的RNA-seq

基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展

  • 差异表达分析
  • 可变剪接
  • 共表达网络
  • 转录调控网络
  • 根据文库构建方法带来的变种
    • ssRNA-seq
    • small RNA-seq
    • ribo-zero-ssRNA-seq
    • circ-RNA-seq

RNA-seq 试验设计

  1. 生物学重复
    生物学重复用于排除随机误差,通常3~5个,不同性质的样本可能需求重复量不同
  2. 样本提取
    液氮或转录阻断剂瞬时猝灭,低温保存,长时间保存可能会降解
  3. 文库构建
    非链特异性文库 RNA-seq:无法区分打碎的片段转录自正义链还是反义链;
    链特异性文库 ssRNA-seq:建库时保留了转录本方向信息。基因表达定位更准确,可变剪切、双向转录等。
  4. 测序策略
    单端测序 single-end:通常用于特殊测序,如small RNAseq;
    双端测序 pair-end:有利于基因注释、转录本异构体鉴定。
  5. 测序深度
    ENCODE推荐不进行可变剪接时,仅计算表达量最少 5M 有效 reads,如果需要鉴定新转录本、检测低表达基因、检测可变剪接等,需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据,特殊文库需要数据倍增。
  6. 测序平台

RNA-seq 文库制备

  1. 总RNA提取
    将 RNA 从特定组织中分离并于脱氧核糖核酸酶混合,降解样本中的DNA,然后用凝胶和毛细管电泳检测 RNA 降解量,评估 RNA 样本质量。

依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。

  1. RNA分离纯化
    • poly A 富集(RNA-seq 常用策略)
    • rRNA 移除(rRNA占细胞中总RNA的比例超过90%)
    • small RNA 富集
    • circRNA 富集
    • 其他等

  2. 样本打断
    打断方法:酶切、超声波处理、喷雾器

  3. cDNA合成
    是否用标记保留链特异信息?

  4. 上机测序

转录组核心数据分析

数据获取

需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置时,需要在bin目录下执行./vdb-config --interactive,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。

测序数据质量控制

测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。

  1. 质量评估:
    使用 FastQC 检测原始数据质量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
  1. 质量控制
    使用 Trimmomatic 去除低质量reads。
    Trimmomatic 详细说明参考://www.greatytc.com/p/a8935adebaae
    FastQC和Trimmomatic的安装及使用参考://www.greatytc.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
    用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10 
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76

在质控后,再质检一次,对比看看有什么不同。

reads比对

将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对:转录组
Bowtie、BWA
• 剪接比对:参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化: GSNAP、MapSplice等

HISAT2比对流程

① 建立基因组索引

extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位点提取出来
extract_exons.py genome.gtf > genome.exon # 把exon提取出来
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是输出文件的前缀

②利用注释文件比对

hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam 
## -p 线程数 
## --known-splicesite-infile 输入剪切位点文件
## --dat 转录本拼接
##-x index 库文件前缀CDS 和 exon 前 . 
## -1 -2 双端测序 fastq的名字, 如是单端测试 –U 
## -S 输出文件,是比对的 SAM 文件

没有注释文件的比对方法

hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam

③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。

samtools view -bS SRAxxx.sam > SRAxxx.bam  # 查看bam文件内容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam  # 按比对位置排序+格式转换
samtools index rice.bam  # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并为一个文件。因为每个文件的sam文件表头都一样,所以用-h指定某一个文件的表头作为总文件的表头。

## -@ 额外线程数
## -m 每个线程最大占用内存,单位 K/M/G,根据实际情况调整。
## -o 输出文件

④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai

⑤比对结果评估
比对结果评估工具:RSeQC、Qualimap

  • Reads 匹配百分比评估预测精度和DNA污染程度或参考基因组的选择是否适合;
  • Reads 随机性分布 评估reads打断的随机程度;
  • 匹配Reads的GC含量,与PCR偏差有关。
    RSeQC的下载:pip install RSeQC
    使用:bam_stat.py -i test.bam > test.bam.stat

基于NGS的转录本定量---StringTie

  1. reads 计算策略
    ① 只选唯一匹配 reads:用于估计基因水平的 reads 匹配数,常用工具如
    HTSeq-count、featureCounts;
    ② 保留多重匹配的 reads:利用统计算法将多重比对reads定位到对于的转录本异构体上,如 Cufflinks、StringTie、RSEM等

计算FPKM

stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam

-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容