1.上Genome Announcements网站找一篇细菌基因组文章,找到文章记载的SRA号
文章截图
现在用SRR9209163这个SRA号做基因组的组装
2.从SRA数据库上用prefetch下载该文件
SRA文件下载
3.Fastq-dump解压
Fastq-dump
- --gzip 可以输出gz格式,节省空间。
- --split-files 将双端测序分为两份,放在不同的文件。
4.Fastqc质控,去接头
-
用fastqc质量控制
fastqc
fastqc之后会生成HTML文件,打开之后观察结果:
Per base sequence quality_1
Per base sequence quality_2 -
用Trimmomatic去接头
刚开始用Trimmomatic去接头的时候,错将fastqc之后的压缩文件用于去接头,导致后面的步骤出错,之后检查时发现这一步虽然成功了,但截图显示Input Read Pairs中全是0%:
出错
修改之后再次尝试:
成功
5.Spades组装基因组草图
out of memory
这个时候又出错了,上网查询相关信息得知可能是没有设置允许的内存,也就是memory太小,才会显示out of memory。
memory limit
仔细观察之后发现默认的memory limit是1G,可能有点小了。
添加参数
这个时候加上-m参数(单位为G),我设置了5个G,这下应该够了。
添加参数
成功
6.Quast评价组装的基因组效果
quast
成功
quast之后生成报告文件report.txt和report.html
report.txt
Cumulative length
GC content
Nx