今天进行序列比对课程的学习
序列比对
1. 无参转录组
1.1 使用拼接工具组装转录本trinity
1.2 trinity
- 提供了一整套 RNA-seq 分析思路和流程
- RNA-seq 初学者绝佳入门软件
- RNA-seq 进阶者绝佳参考资料
1.3 基于转录本进行比对
2. 基于基因组比对(以染色体为单位)
2.1 STAR软件
- 第一个通过算法优化将比对时间大幅降低的比对工具
- 提供了完善的输出内容,对初学者非常友善
- 需消耗相对大的内存
2.2 Hisat2软件
- tophat 继任者
- STAR 启发下的后起之秀,所需时间少,占用内存低
- 输出结果仅为比对文件,结果单一
3. 基于转录本比对(以转录本为单位)
3.1 RSEM软件
- 需要提前借助基因组和注释信息准备相关的文件
- 结合 bowtie2 和 STAR 进行比对和定量分析
4. STAR操作实例
4.1 建立索引
#建立索引目录
mkdir arab_STAR_genome
#运行STAR建立拟南芥基因组索引
STAR --runThreadN 6 --runMode genomeGenerate \
--genomeDir arab_STAR_genome \
--genomeFastaFiles 00ref/TAIR10_Chr.all.fasta \
--sjdbGTFfile 00ref/Araport11_GFF3_genes_transposons.201606.gtf \
--sjdbOverhang 149
4.2 进行比对
- 简单版
#STAR align 简单版
STAR --runThreadN 5 --genomeDir arab_STAR_genome \
--readFilesCommand zcat \ #注意:macos 中的解压缩命令为 'gzcat',才能被shell识别
--readFilesIn 02clean_data/sample1_paired_clean_R1.fastq.gz \
02clean_data/sample1_paired_clean_R2.fastq.gz \
--outFileNamePrefix 03align_out/sample1
- 复杂版
#STAR align 复杂版本
STAR --runThreadN 5 --genomeDir arab_STAR_genome \
--readFilesCommand gzcat \
--readFilesIn 02clean_data/sample2_paired_clean_R1.fastq.gz \
02clean_data/sample2_paired_clean_R2.fastq.gz \
--outFileNamePrefix 03align_out/sample2 \
--outSAMtype BAM SortedByCoordinate \
--outBAMsortingThreadN 5 \
--quantMode TranscriptomeSAM GeneCounts