art-illumina模拟测序

1.安装软件及下载基因组数据

1.1 下载art-illumina测序软件链接

tar zxvf artsrcmountrainier2016.06.05linux.tgz    #解压软件
cd art_src_MountRainier_Linux/
./configure   #检查依赖；结果报错，没有libgsl(c语言计算库)，没有报错的话不需要安装gsl,make就行了
#安装gsl
cd ../
wget http://ftp.club.cc.cmu.edu/pub/gnu/gsl/gsl-latest.tar.gz   #下载最新版gsl库
tar zxvf gsl-latest.tar.gz 
cd gsl-2.5/
./configure
make 
sudo make install  #安装，需要管理员权限
cd ../
#再次安装
cd art_src_MountRainier_Linux/
./configure
make
sudo make install
#安装没问题了，运行时报错，找不到libgsl.so，因为该库默认放在了/usr/local/lib，所以需指定环境变量
echo 'export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH' >>~/.bashrc   #添加到环境变量
source ~/.bashrc
#现在可以运行了

1.2 下载基因组数据

从genome下载基因组序列，解压（酿酒酵母YJM1338）

2.模拟测序

使用art-illumina模拟测序
具体参数如下：
art_illumina是需要运行的程序

-ss illumina不同平台有不同的固定表示，HS20表示HiSeq 2000 (100bp)。

-sam 同时生成sam文件

-i 需要输入的参考基因组

-p 表示输出是paired-end数据，如果-m参数给出的值>=2000，则自动升级成mate-pair

-l 100 表示是100bp的双端数据

-f 表示输出数据的覆盖度，这里是10X

-m 表示paired-end的片段大小

-s 表示-m片段的偏差

-o 需要输出的数据，sequencing1是输出文件的前缀

-ef 加上-ef可以使输出的模拟数据没有错误值，加不加看自己的需求。

#使用nohup挂到后台，可以使用jobs查看
nohup art_illumina -ss HS20 -sam -i GCA_000977205.2_Sc_YJM1338_v1_genomic.fna -p -l 50 -f 1 -m 100 -s 10 -o sequencing1&
nohup art_illumina -ss HS20 -sam -i GCA_000977205.2_Sc_YJM1338_v1_genomic.fna -p -l 50 -f 1 -m 1000 -s 10 -o sequencing2&
nohup art_illumina -ss HS20 -sam -i GCA_000977205.2_Sc_YJM1338_v1_genomic.fna -p -l 100 -f 1 -m 1000 -s 10 -o sequencing3&
nohup art_illumina -ss HS20 -sam -i GCA_000977205.2_Sc_YJM1338_v1_genomic.fna -p -l 100 -f 1 -m 1000 -s 20 -o sequencing4&
nohup art_illumina -ss HS20 -sam -i GCA_000977205.2_Sc_YJM1338_v1_genomic.fna -p -l 100 -f 10 -m 1000 -s 10 -o sequencing5&

生成5个文件，2个fastq文件，2个aln文件，1个sam文件
使用awk统计碱基数

awk '{if (FNR%4==2) print $0}' sequencing11.fq sequencing12.fq | wc -m
awk '{if (FNR%4==2) print $0}' sequencing21.fq sequencing22.fq | wc -m
awk '{if (FNR%4==2) print $0}' sequencing31.fq sequencing32.fq | wc -m
awk '{if (FNR%4==2) print $0}' sequencing41.fq sequencing42.fq | wc -m
awk '{if (FNR%4==2) print $0}' sequencing51.fq sequencing52.fq | wc -m

使用表格统计不同参数下的覆盖度

序号	基因组大小	-l(read_length)	-f	-m	-s	base number	测序深度m(-f的实际值)	理论丢失率(e-m)	覆盖率(1-e-m)
1	12372560	50	1	100	10	12454710	1.0066396929980537	36.57%	63.43%
2	12372560	50	1	1000	10	12450528	1.0063016869588832	36.56%	63.44%
3	12372560	100	1	1000	10	12319576	0.9957	36.95%	63.05%
4	12372560	100	1	1000	20	12322808	0.9959788	36.94%	63.06%
5	12372560	100	10	1000	10	123204850	9.95791	4.735e-5	99.995%

从表中看出reads长度越小，片段越小，测序深度越大，偏差越大，则实际的测序深度越大，覆盖率越高。

3.创建模型

在Genbank的SRA子库中，搜索Saccharomyces cerevisiae YJM1338的测序结果文件。

sra数据

安装sratoolkit(https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6/sratoolkit.2.9.6-ubuntu64.tar.gz)
使用sratoolkit的prefetch下载数据,使用vdb-validate进行数据校验，并使用fastq-dump提取文件。

#sratoolkit没有写到环境变量中，直接在软件目录下运行
./prefetch SRR800815   #下载数据，该软件会在/home目录下创建ncbi文件夹，下载的数据在该目录下
./vdb-validate /home/li/ncbi/public/sra/SRR800815.sra　　　#校验数据是否下载完成
./fastq-dump --split-files /home/li/ncbi/public/sra/SRR800815.sra　　　#将数据解压为fastq格式数据

创建文件夹SRA，将解压后的fastq数据保存到里面，使用art软件建模

art_profiler_illumina myHi2000.txt SRA fastq 1

python模拟测序过程（有些过程没有想明白，还存在错误，后面有时间再改）

from Bio import SeqIO
import random
from math import exp
from collections import defaultdict
class simulation:
    def __init__(self):
        self.fragement=list()    #储存片段
        self.reads=list()       #储存reads
        self.readsAllLen=0     #统计所有reads的长度
        self.readsLen=100      #默认reads长度为100bp
        self.avergeFrangementLen=600   #默认平均片段长为1000
        self.minFrangementLen=200         #默认最短片段
        self.maxFrangementLen=1000          #默认最长片段

        self.std=200
        self.dnaLen=0               #统计测序总长
        self.coverage=10            #默认测序深度为10X
        self.readsID=defaultdict(int)   #统计每一个染色体的reads数
        
    def breakSeq(self,seqLen,averageBreak):             #计算打碎的片段区间
        breakList=[random.randint(0,seqLen) for _ in range(seqLen//averageBreak)]
        breakList.append(seqLen)
        breakList.append(0)
        breakList.sort()
        return breakList

    def breakGenome(self,breakList,minFrangementLen,maxFragementLen,seq):     #去除掉过小或过长的片段，并打碎序列
        for i in range(len(breakList)-1):
            if (breakList[i+1]-breakList[i])>minFrangementLen and (breakList[i+1]-breakList[i])<maxFragementLen:
                self.fragement.append(seq[breakList[i]:breakList[i+1]])

    def PCRIncrease(self,probability):   #模拟PCR中片段的丢失
        PCRFrangement=list()
        lossProbability=[random.random() for _ in range(len(self.fragement))]
        for i in range(len(self.fragement)):
            if lossProbability[i]<probability:
                PCRFrangement.append(self.fragement[i])
        return PCRFrangement

    def singleReads(self,PCRFrangement):
        for fragement in PCRFrangement:
            fragement_decs=fragement.description[:10]
            self.readsID[fragement_decs]+=1
            fragement.decsription='@'+fragement_decs+'-'+str(self.readsID[fragement_decs])
            self.reads.append(fragement[:self.readsLen])
            self.readsAllLen+=self.readsLen

    def singleSequencing(self,file,resultFile):
        for seq in SeqIO.parse(file,'fasta'):
            self.dnaLen+=len(seq)
            seq_decs=seq.description[:10]
            for i in range(self.coverage):
                breakList=self.breakSeq(len(seq),self.avergeFrangementLen)
                self.breakGenome(breakList,self.minFrangementLen,self.maxFrangementLen,seq)
        PCRFrangement=self.PCRIncrease(0.95)
        self.singleReads(PCRFrangement)
        SeqIO.write(self.reads,resultFile,'fasta')
        print('coverage:',self.readsAllLen/self.dnaLen)
    
    def pairReads(self,PCRFrangement):
        for fragement in PCRFrangement:
            fragement_decs=fragement.description[:10]
            self.readsID[fragement_decs]+=1
            fragement.decsription='@'+fragement_decs+'-'+str(self.readsID[fragement_decs])+str(1)
            fragement_rev_comp=fragement.reverse_complement()
            fragement_rev_comp_desc=fragement_rev_comp.description[:10]
            self.readsID[fragement_rev_comp_desc]+=1
            fragement_rev_comp.description="@"+fragement_rev_comp_desc+"-"+str(self.readsID[fragement_rev_comp_desc])+str(2)
            self.reads.append(fragement[:self.readsLen])
            self.reads.append(fragement_rev_comp[:self.readsLen])
            self.readsAllLen+=self.readsLen*2 
    def pairSequencing(self,file,resultFile1,resultFile2):
        for seq in SeqIO.parse(file,'fasta'):
            self.dnaLen+=len(seq)
            seq_decs=seq.description[:10]
            for i in range(self.coverage):
                breakList=self.breakSeq(len(seq),self.avergeFrangementLen)
                self.breakGenome(breakList,self.minFrangementLen,self.maxFrangementLen,seq)
        PCRFrangement=self.PCRIncrease(0.95)
        self.pairReads(PCRFrangement)
        reads1=[self.reads[i] for i in range(len(self.reads)) if i%2==0]
        reads2=[self.reads[i] for i in range(len(self.reads)) if i%2==1]
        SeqIO.write(reads1,resultFile1,'fasta')
        SeqIO.write(reads2,resultFile1,'fasta')
        print('coverage:',self.readsAllLen/self.dnaLen)

situlate=simulation()
situlate.singleSequencing('GCA_000977205.2_Sc_YJM1338_v1_genomic.fna','result.fa')
situlatePair=simulation()
situlatePair.pairSequencing('GCA_000977205.2_Sc_YJM1338_v1_genomic.fna','result1.fa','result2.fa')

最后编辑于：2019.06.08 11:04:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 225,124评论 6赞 523
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,453评论 3赞 404
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 172,386评论 0赞 368
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 61,136评论 1赞 301
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,142评论 6赞 400
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,593评论 1赞 315
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,958评论 3赞 429
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,944评论 0赞 279
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,477评论 1赞 324
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,512评论 3赞 346
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,639评论 1赞 355
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,227评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,971评论 3赞 340
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,397评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,550评论 1赞 277
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,203评论 3赞 381
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,713评论 2赞 366