基因组注释学习(一)----重复序列屏蔽

基因组组装完成后,需要对基因组进行注释。对于高等真核生物,由于重复序列占了相当大的比例,会影响基因预测的质量,也会带来不必要的资源消耗。因此在基因预测前,首先要检测并屏蔽基因组中的重复序列。

重复序列可分为串联重复序列和散在重复序列两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等。散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子。常见的反转录转座子类别有LTR,LINE和SINE等。

鉴定基因组重复区域的方法有两种:

(1)基于文库的同源方法(序列比对方法)。----RepeatMasker

(2)从头预测的方法。----RepeatModeler

基于文库同源方法将基因组与已知重复序列的数据库进行同源搜素,识别基因组中的重复序列,准确而快速。但依赖于数据库本身,只能通过已知特定类型的重复序列寻找相似的区域,当基因组差异过大,特别是新物种时,很多未知重复序列将难以识别。

从头预测方法直接从现有的全基因组序列中根据元件的结构或功能特征等训练模型,构建重复序列集,不依赖于其它数据库,可以有效识别出新的重复序列结构类型。但是比较费时,且也容易产生错误识别。

下面将介绍这两种软件的安装与使用:

1软件安装

软件可以用conda安装,但是由于服务器不能联网的原因,这里我考虑手动安装。

#1RepeatMasker----重复序列检测工具,通过与参考数据库的相似性比对来准确识别或屏蔽基因组中的重复序列。--基于文库的同源方法。
#(1)RepeatMasker
tar xf RepeatMasker-open-4-0-7.tar.gz
mv RepeatMasker ~/software/ 
#(2)trf409.linux64
mv trf409.linux64 ~/software/RepeatMasker/trf                   #移动并重命名为trf
chmod a+x ~/software/RepeatMasker/trf 
#(3)RMBlast
cp rmblast-2.10.0+-x64-linux.tar.gz ~/software
cd ~/software 
tar zxvf rmblast-2.10.0-x64-linux.tar.gz
rm rmblast-2.10.0-x64-linux.tar.gz
#(4)RepBase----目前官网已经不提供
tar xzvf RepBaseRepeatMaskerEdition-20170127.tar.gz
cd Libraries/
cp README ~/software/RepeatMasker/Libraries
cp RMRBSeqs.embl ~/software/RepeatMasker/Libraries
#注:把Library中的文件移到RepeatMasker/Library
#(5)运行配置脚本
 cd ~/software/RepeatMasker
 perl ./configure
 #note:按提示操作。
 #看看能不能运行
 ./RepeatMasker -h
file
#2RepeatModeler----重复序列检测工具,将序列和自己比较或者是高频K-mer来鉴定重复。--基于从头预测的方法。
(1)RepeatModeler
tar xf RepeatModeler-open-1.0.11.tar.gz
mv RepeatModeler-open-1.0.11 ~/software
(2)RECON
tar xf RECON-1.08.tar.gz
cd RECON-1.08/src
make && make install
cd ..
cd ..
mv RECON-1.08 ~/software/RepeatModeler-open-1.0.11
(3)nesg---注所有下载文件存到一个nesg文件夹中。
cd ~/nesg
make
cd ..
mv nesg ~/software/RepeatModeler-open-1.0.11
(4)RepeatScout
tar zxvf RepeatScout-1.0.5.tar.gz
cd RepeatScout-1/
make
mv RepeatScout-1 ~/software/RepeatModeler-open-1.0.11
(5)配置
cd ~/software/RepeatModeler-open-1.0.11
perl ./configure

提示缺少perl模块JSON


file
#解决方法:无root权限时候。
#https://metacpan.org/pod/JSON下直接download吧
tar xvzf JSON-4.02.tar.gz
cd JSON-4.02/
perl Makefile.PL
make
make install
make test
mv JSON-4.02 ~/software/perl_modules
#再次配置(按提示输入地址)
cd ~/software/RepeatModeler-open-1.0.11
perl ./configure
./RepeatModeler -h    #测试
file
#写入环境变量
vim ~/.bashrc
export PATH="~/software/RepeatMasker:$PATH"                                                        
export PATH="~/software/RepeatModeler-open-1.0.11:$PATH" 
source ~/.bashrc
#测试
RepeatMasker -h
RepeatModeler -h

2.软件使用

2.1RepeatMasker的使用

如果RepBase数据库对一个物种覆盖率较好,则可以直接使用RepeatMasker屏蔽重复序列。

cd ~/annotation/xx_annotation
mkdir RepeatMasker
touch RepeatMasker.sh
vim RepeatMasker.sh
RepeatMasker -e xx -species xx -pa xx -gff -dir ~/annotation/xx_annotation/RepeatMasker ~/annotation/xx_annotation/xx_unmasked.fa
#-e:选择搜索引擎,可以为wublast|abblast|ncbi|hmmer|decypher。
#-species:选择的物种。
#-pa:并行时候使用的处理器数量。
#-gff:输出gff文件。
#-dir:输出文件目录。
#最后为组装得到的fasta所在目录。
#结果文件
xx.fa.masked, 将重复序列用N代替(后续用于预测)。
xx.fa.out.gff, 以gff2形式存放重复序列出现的位置。
xx.fa.tbl, 该文件记录着分类信息。
file
#查看屏蔽重复序列情况
cat xx.fa.tbl
#note:如果屏蔽出来的效果不好,建议用下面的方法做(先验知识,物种的重复序列比例)。
file

2.2RepeatModeler的使用

如果RepBase数据库对一个物种覆盖率不好,直接用RepeatMasker屏蔽出来的很少,则需要使用RepeatModeler构建library。

mkdir RepeatModeler
touch RepeatModeler.sh
vim RepeatModeler.sh
cd ~/annotation/xx_annotation
#1.建立数据库。
BuildDatabase -name xx -engine xx ~/annotation/xx_annotation/xx_unmasked.fa
#-name:数据库的名字。
#-engine:选择的搜索引擎。
#最后为组装得到的结果所在目录。
#2.构建library
RepeatModeler -database xx -engine xx -pa xx 
#-database:数据库名字,与前面一致。
#-engine:选择的搜索引擎,与前面一致。
#-pa:并行时候使用的处理器数量。
#3.RepeatMasker进行重复序列屏蔽
RepeatMasker -e xx -lib xx-families.fa -pa xx -gff -dir ~/annotation/xx_annotation/RepeatModeler xx_unmasked.fa
#注:这里其他使用与前面介绍的一样,只不过这里指定了我们产生的library文件。
#第一步结果:构建的数据库。
file
#第二步结果:运行时间相对较长,一般的服务器建议nohup放后台运行。
#运行成功会生成以下两个文件。
xx-families.fa:找到的重复序列。                   #对于使用RepeatMasker运行快速自定义库搜索非常有用。
xx-families.stk:种子联配文件(seed alignment file)。
#note:也会生成以下文件。----具体解释见官网:http://www.repeatmasker.org/RepeatModeler/
file
#第三步结果:解读与前面一样。
file

3.写在最后

如果是RepBase对要做物种的覆盖情况较好直接RepeatMasker就好,当然如果你要做的RepBase覆盖情况不好的话,还是用RepModeler构建library再用RepeatMasker吧。

参考:

https://shengxin.ren/article/29

https://blog.csdn.net/u012110870/article/details/82500684

//www.greatytc.com/p/50ce4bcd1972

//www.greatytc.com/p/52621fc935bb

http://www.repeatmasker.org/RepeatModeler/

http://www.repeatmasker.org/RMDownload.html

本文由博客一文多发平台 OpenWrite 发布!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容