//www.greatytc.com/p/bccdc3c68ace
RepeatModeler已更新,拥有了一些新的功能,可以识别LTR的结构
在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + RepeatMasker。
RepeatModeler的依赖工具可以conda安装或者手动安装,推荐conda
安装需要的环境
perl和Text::Soundex模块-- V5.8.8及以上版本
Python 3 和 h5py 模块 -- RepeatMasker软件需要
RECON -- De Novo Repeat Finder
RepeatScout -- De Novo Repeat Finder
TRF-- Tandem Repeat Finder
RepeatMasker & Libraries
RMBlast NCBI Blast的修改版本,可与RepeatMasker和RepeatModeler一起使用,可选
ABBlast 比NCBI Blast更快,灵敏度更高的搜索引擎,可选
Text::Soundex和h5py 模块
cpan install Text::Soundex #perl模块安装
pip3 install numpy scipy matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple #h5py必须先装此模块,-i表示清华镜像
pip3 install h5py -i https://pypi.tuna.tsinghua.edu.cn/simple
1、RepeatMasker、TRF、RMblast
在正式安装RepeatModeler主程序之前,需要提前配置好其依赖的工具。
见前文(RepeatMasker的安装与使用)(//www.greatytc.com/p/ffdbedae80fa)。
2、RECON(从头预测功能实现的核心组件)
conda install RECON #自动配置在conda环境中
wget http://www.repeatmasker.org/RepeatModeler/RECON-1.08.tar.gz
tar -zxvf RECON-1.08.tar.gz
cd RECON-1.08/src
make ; make install #已经将使用软件安装在 RECON-1.08/bin下
3、RepeatScout(从头预测功能实现的核心组件)
conda install RepeatScout
wget http://www.repeatmasker.org/RepeatScout-1.0.6.tar.gz
tar -xzvf RepeatScout-1.0.6.tar.gz
cd RepeatScout-1.0.6
make # 会生产build_lmer_table和RepeatScout两个程序
4、可选软件,运行LTR结构搜索必须软件,也可以不安装
LtrHarvest(是GenomeTools套件的一部分,安装genometools即可。)
MAFFT
conda install genometools-genometools
conda install -c bioconda mafft
wget http://genometools.org/pub/genometools-1.6.2.tar.gz
tar -pzxvf genometools-1.6.2.tar.gz
cd genometools-1.6.2
make threads=yes #设置多线程模式
make prefix=/software/annotation/genometools/1.6.2 install
Ltr_retriever,解压即可使用
https://github.com/oushujun/LTR_retriever/archive/master.zip
unzip LTR_retriever-master
CD-HIT和Ninja,解压后编译一下就好了
wget https://github.com/weizhongli/cdhit/archive/master.zip
unzip cdhit-master.zip && cd cdhit-master/
sudo make
wget https://github.com/TravisWheelerLab/NINJA/archive/master.zip
unzip master.zip && cd NINJA/
sudo make
5、RepeatModeler
前面的工具配置好后,源码编译RepeatModeler,和RepeatMasker安装过程很像,需要一步步指定所依赖的环境。
#RepeatModeler
wget http://www.repeatmasker.org/RepeatModeler/RepeatModeler-2.0.1.tar.gz
tar xzvf RepeatModeler-2.0.1.tar.gz
cd RepeatModeler-2.0.1.tar.gz
chmod -R 755 *
perl ./configure
“./configure”执行后,根据提示信息一步步来。
首先是perl环境,推荐使用/usr/bin环境下的perl,即系统perl,使用conda中的perl后面总出问题。回车继续。
RepeatModeler安装路径,默认自动指定安装路径,回车继续。
指定RepeatMasker的安装路径,回车继续。
指定RECON的安装路径,回车继续。
指定RepeatScout的安装路径,回车继续。
指定NSEG的安装路径,回车继续。
指定TRF的安装路径(这个同时也是RepeatMasker安装必需的),回车继续。
最后是序列搜索引擎(这个同时也是RepeatMasker安装必需的),例如我们这里选择2,指定RMBlast主程序所在路径,回车返回主界面后,再选择3,就完成了。
你也可以指定多种序列搜索引擎后,再选择3,不过实际运行时,一次只能选择一种序列比对方式。
这时会有提示:
这个版本的RepeatModeler可以检测LTR的结构,是否配置,可以根据需要自行选择。若需要就按y,然后根据提示选择路径完成配置。
这就完成RepeatModeler的安装。
终于把一些列的环境添加完了,最后配置环境变量。
#例如,我的RepeatModeler安装路径是在“/home/my/software/RepeatModeler-open-1.0.11”
export PATH=/home/my/software/RepeatModeler-2.0.1:$PATH
#这时候没啥问题的话应该可以看到帮助界面了
RepeatModeler -h
使用示例:
BuildDatabase -name human human_genomic.fa
RepeatModeler -pa 4 -database human -LTRStruct
RepeatMasker -e rmblast -lib human-families.fa -pa 4 human_genomic.fa
后续结果跟RepeatModeler1.0的结果差不多
祝大家科研顺利!!!