1. 下载Sra数据
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-centos_linux64.tar.gz
tar xzvf sratoolkit.2.9.2-centos_linux64.tar.gz
vi ~/.bashrc
##添加相应路径
source ~/.bashrc
下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。
cd ncbi/public/sra
for i in `seq 54 59`; do prefetch SRR70278${i}; done
首先进入 ncbi/public/sra$ 路径下
进行解压
fasterq-dump --split-3 SRR7027855.sra -t ./mnt -e 24
for i in `seq 54 59`
do
fastq-dump --split-3 SRR70278${i}.sra -t ./mnt -e 24
done
我这里批量运行好像有问题,因此单个解压了。
2.下载后的小RNA序列放到以下文件夹中
将fastq文件按长度大小分成多个小文件(17-26)
$ mkdir length_fastq
$ for i in `seq 54 59`;do cat ./ncbi_database/SRR70278${i}.sra.fastq | sed -n '/length=17/{p;n;p}' >> ./rfam/SRR70278${i}_mt_tRNA_length17.fa; done
$ for i in `seq 54 59`;do cat ./ncbi_database/SRR70278${i}.sra.fastq | sed -n '/length=18/{p;n;p}' >> ./rfam/SRR70278${i}_mt_tRNA_length18.fa; done
·
$ for i in `seq 54 59`;do cat ./ncbi_database/SRR70278${i}.sra.fastq | sed -n '/length=16/{p;n;p}' >> ./rfam/SRR70278${i}_mt_tRNA_length16.fa; done
·
·
$ for i in `seq 54 59`;do cat ./ncbi_database/SRR70278${i}.sra.fastq | sed -n '/length=26/{p;n;p}' >> ./rfam/SRR70278${i}_mt_tRNA_length26.fa; done
得到一系列文件
3 下载mt-tRNA标准序列
参考//www.greatytc.com/p/ef20c4932b3b
$ wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/ncrna/Homo_sapiens.GRCh38.ncrna.fa.gz
$ gunzip Homo_sapiens.GRCh38.ncrna.fa.gz
$ head -100 Homo_sapiens.GRCh38.ncrna.fa #查看fa文件前100行
查看fa文件小RNA类型
cat Homo_sapiens.GRCh38.ncrna.fa | sed -n '/^>/p' | awk '{print $5}' | uniq
ENST00000459236.1 ncrna chromosome:GRCh38:7:128443449:128443510:-1 gene:ENSG00000238590.1 gene_biotype:snRNA transcript_biotype:snRNA gene_symbol:RNU7-54P description:RNA, U7 small nuclear 54 pseudogene [Source:HGNC Symbol;Acc:HGNC:34150]
TAGTGTTACAGCGCTTTGAGAATTTGTCTAGCAGGCCTTTGGGTCTTTACTGGAAAACCC
CT
sed 找到所有以>开头的行
awk '{print $5}' 输出每个项目第五个的内容
uniq 命令删除重复的行
ensemble 文件中的RNA类型
将其中某种类型的RNA(Mt_tRNA)提出来放入单个文件中
mkdir rfam
cd rfam
touch Mt_tRNA.fa ##新建文件
cd 在返回上一级
cat Homo_sapiens.GRCh38.ncrna.fa | sed -n '/Mt_tRNA/{p;n;p}' >> ./rfam/Mt_tRNA.fa
4 建立索引
$ bowtie2-build Homo_sapiens.GRCh38.dna.chromosome.MT.fa.gz homo_mt
basename -a ./rfam/*.fa|while read id ;do bowtie2 -p 10 -x homo_mt ./rfam/${id}|samtools sort -O bam -@ 10 -o -> ./bam/${id}.bam; done
basename -a 获取rfam文件夹下所有文件;while read id,读取单个文件; do bowtie2 运行程序,{id}.bam
featureCounts 计算counts数目
线粒体全基因特征
basename -a ./bam/*.bam|while read id ;do featureCounts -O -T 6 -t exon -g exon_id -a Homo_sapiens.GRCh38.100.chromosome.MT.gff3.gz -o ./output/${id}.txt ./bam/${id} ; done
如果只是tRNA特征的reads 则为:
basename -a ./bam/*.bam|while read id ;do featureCounts -O -T 6 -t tRNA -g transcript_id -a Homo_sapiens.GRCh38.100.chromosome.MT.gff3.gz -o ./tRNA_output/${id}.txt ./bam/${id} ; done
#############################################
不能加 -p
$ featureCounts -O -d 1 -D 30 -T 10 -t exon -g exon_id -a Homo_sapiens.GRCh38.100.chromosome.MT.gff3.gz -o SRR702785.txt SRR7027854.bam
不加-O, count数量变为了175.
$ featureCounts -T 10 -t exon -g exon_id -a Homo_sapiens.GRCh38.100.chromosome.MT.gff3.gz -o SRR702785.txt SRR7027854.bam
一些参数的意义:
########################################
mkdir tRNA_output_length
将 tRNA_output/下所有文件复制到tRNA_output_length
mkdir new
basename -a *.txt| while read id; do cat ./${id} | awk '{print $7}'>./new/${id} ; done
paste ./new/*.txt > reads_count.txt