前言
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!顺便对bam文件进行简单QC,参考直播我的基因组系列。生信技能树
参考基因组及注释
由于在第一节已经准备好了相应的软件,只需要再准备好相应的数据就行了。在HISAT2官网即可下载现成的index文件,这里使用小鼠常用的mm10。
接下来就用下载相应的注释,切记不同及基因组版本的对应关系。
通过gencode下载最新小鼠GRCm38版本的gtf注释。这个页面也收集好了不同分类的基因集合,比如lncRNA的注释。
序列比对
ref=/mnt/e/0ngs/ref/mm10_hisat_index/mm10 #index
# 根据注释文件提取已知splices位点信息
hisat2_extract_splice_sites.py gencode.vM13.annotation.gtf > splicesites.txt
# 开始比对
for i in `seq 59 62`; do hisat2 -p 6 -x $ref --known-splicesite-infile ref/splicesites.txt -1 SRR35899$i_1.fastq.gz -2 SRR35899$i_2.fastq.gz -S SRR35899$i.sam 2>SRR35899$i.log; done
比对结果统计
其中,concordantly指方向和相对距离都与建库一致;disconcordantly指配对的两个read都能比对上,但方向或者(和)相对距离不符合。s4、s5指不能同时比对上的配对read,拆分按单端测序条件比对的情况。
Sort
### sort -n(read name排序) ###
# name排序方便提高后续read count的效率
samtools sort -n -@ 6 Akap95_1.sam -o Akap95_1.Nsort.bam
# position排序利于存储压缩
samtools sort -@ 6 Akap95_1.sam -o Akap95_1.Psort.bam #染色体坐标排序
# index
ls *.Psort.bam |while read id;do (samtools index -@ 4 $id &);done