//www.greatytc.com/p/e8cd62ba14fe
1、首先安装需要使用的软件:
sratoolkit, fastqc, hisats, samtools, htseq-count, R, Rstudio
2、数据下载:https://www.ncbi.nlm.nih.gov/projects/faspftp/
不使用 Aspera Connect,没有外网,选择sratoolkit
服务器不能联网,选择mac版。
多个一起下载
先找到要下载的页面,比如https://www.ncbi.nlm.nih.gov/sra,然后右上角,send to-file,format选择accession list,保存为一个file(默认是SraAccList.txt),然后
prefetch $(<SraAccList.txt)
跟上学习进度咱们还是下载一个liver cancer的数据,感觉相当慢
下载一个aspera connect, 没外网下的很慢而已啦
https://www.ncbi.nlm.nih.gov/projects/faspftp/ 在这个下载sra文件的网站可以快速下载aspera connect
下载过程中网断了,怎么办?
nohup prefetch SRR824846 &
nohup 命令可以使命令永久的执行下去,和终端没有关系,退出终端也不会影响程序的运行; & 是后台运行的意思,但当用户退出的时候,命令自动也跟着退出。 那么,把两个结合起来nohup 命令 &这样就能使命令永久的在后台执行。
aspera按照 //www.greatytc.com/p/8dca09077df3 安装
但是,电脑下载的是dmg,不会,不过使用sratoools,自动用了fasp
下载过程中,感觉网什么都干不了了,扎心
3、下载过程中了解一下hg19参考基因组
//www.greatytc.com/p/02a92e4ead4b
4、用samtools转sra文件为fastaq
fastq-dump --gzip --split-3 -O *.sra .
5、用fastqc质量控制(但是这个只是看质量,不是筛,所以也许可以不做如果数据是网上下载的话??)
fastqc -t 8 -o. *.fastq.gz (所有文件)
质控结果批量查看工具:multiQC
6、数据的质量控制——FASTX-Toolkit 去接头,过滤低质量序列
问题,如何知道接头序列是什么?
trimmo中有illumina接头序列库