参考链接:http://bioinfostar.com/2017/12/23/How-to-download-SRA-data-zh_CN/
警告:尽量不要用wget或curl去下载sra文件,某些情况下会导致下载的文件不完整!
利用aspera工具则可以直接下载fastq文件,而不需要再次进行解压转换
Step1.安装aspera工具
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
# 安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 查看是否有.aspera文件夹
cd # 去根目录
ls -a # 如果看到.aspera文件夹,代表安装成功
# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 查看帮助文档
ascp --help
Step2.利用aspera工具下载数据
ascp
的用法:ascp [参数] 目标文件 目标地址,在线文档
在明确需要下载的SRR编号后,去链接http://ftp.sra.ebi.ac.uk/vol1/fastq/获取下载地址。
需要了解aspera工具下载时SRR编号规则,照常来说为9位(3+3+3规则),SRR首3位,末三位,若不足9位数,则补0
例如SRR1770413,则为SRR177,041,003
则选择SRR177文件夹,003文件夹,获取结果如下
因此下载链接为:/vol1/fastq/SRR177/003/SRR1770413/,可以看到有两个fastq文件
下载代码为:
ascp -QT -l 300m -P33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:下载链接 自定义文件地址
ascp -QT -l 300m -P33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR177/003/SRR1770413/ /home/linjc/jianshu/WES
获取的名字仍未SRR编号名字,有时候需要改名以便区分,我们可以去查看原数据的命名,根据原本命名进行修改
可以看到,R1 为E_Coli_CGATGT_L001_R1.fastq,R2为E_Coli_CGATGT_L001_R2.fastq
以上便是aspera工具下载SRA数据的流程,该工具快速方便。