说说重复序列

一篇对重复序列讲解相对比较完善的博文

RepeatModeler

使用RepeatModeler来通过基因组序列构建LIBRARY

Prerequisites

perl 5.8.0 or higher

RepeatMasker & Libraries 见下面的解释

RECON - De Novo Repeat Finder

RepeatScout - De Novo Repeat Finder

TRF(Tandem Repeat Finder)

NSEG - Low complexity sequence identification.

search engines:RMBlast或ABBlast/WUBlast


RepeatMasker

简书上的一篇分享文章

Prerequisites

perl 5.8.0 or higher

Sequence Search Engine:Cross_Match或者 RMBlast或HMMER或ABBlast/WUBlast WUBlast/ABBlast(至少一个上述的搜索工具)

RMBlast

TRF(Tandem Repeat Finder) 用于鉴定DNA序列上的串联重复区域,输入文件是fa文件,输出有两个repeat table file和 alignment file文件,可以先看看Example of output了解输出文件的格式,多序列的输入文件最后会输出名字为summary.html索引文件,使用说明以及参数网页中最后一行可以链接到输出文档的说明页面

Repeat Database: repeatmasker本身内置两个小型的数据库dfam和dfam_consensus并且在不断更新中,不过还是建议使用者结合repbase数据库一起使用,repbase需要注册许可证,下载后在RepeatMasker文件夹中解压,来自GIRI的文件将它解压到重复的目录中,它会自动将内容放在正确的子目录中。

Dfam(目前包含的物种human, mouse, zebrafish, fruit fly, and nematode)

Dfam_consensus

Repbase 需要用户名和密码,用gmail邮箱注册,需要等待1-2个工作日,

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容