转座子分类软件deepTE简介

作者:May
审稿:童蒙
编辑:amethyst

前言

基因组转座子(TE)注释过程中,对于RepeatModeler这种denovo注释的得到的转座子往往不能进行分类,因此对TE的统计经常存在unknow重复序列过多的情况,之前已经发表了TEclass,REPCLASS和PASTEC等,TEclass基于支持向量机(SVM)分类TE,REPCLASS基于TE结构及同源的特征分类TE,PASTEC基于隐马尔科夫模型(HMM)来分类TE。2020年在Bioinformatics上发表了一款新的软件,基于卷积神经网络(CNN)的重复序列分类软件DeepTE[1],这里我们对其使用方法及效果进行了一系列测评。

软件安装

软件地址https://github.com/LiLabAtVT/DeepTE,推荐使用conda安装,安装过程如下

conda create -n py36 python=3.6
conda activate py36
conda install tensorflow-gpu=1.14.0
conda install biopython
conda install keras=2.2.4
conda install numpy=1.16.0

此外,该软件还依赖HMMER(v3.1b1),以及不同物种分类的模型,可以从以下网站下载,下载的文件放在model_dir目录下,作为参数-m_dir的输入

参数解析

该软件主要包括2个脚本:DeepTE.py和DeepTE_domain.py,DeepTE.py为主脚本,进行TE分类,DeepTE_domain.py主要对序列进行TE保守结构域的鉴定。

DeepTE.py基本参数如下:
-i :输入的unknow重复序列
-d:工作目录,生成中间结果
-o :输出目录
-m:模型的名称,提供该参数直接下载模型,P:植物,M:动物,F:真菌,O:其他,U:UNS_model则会自行下载
-m_dir :下载的model_dir路径(上述下载的物种文件的存放目录),包括植物,动物,真菌,其他和UNS_model(直接提供-m P、M、F、O、U则会自行下载 )

-sp:序列来源的物种分类:P:植物, M:动物,F:真菌, O:其他 ,U:未知
-fam:提供TE家族名称(如果是已知的家族可以提供),如果不提供则认为是unknown TEs
              ClassI: 输入序列为ClassI TEs
              ClassII: 输入序列为ClassII subclass1 TEs
              LTR: 输入序列为LTR TEs
              nLTR:输入序列为 nLTR TEs
              LINE:输入序列为LINE TEs
              SINE: 输入序列为 SINE TEs
              Domain: 输入序列为 Class II subclass1 TEs 特异的超家族
-modify:可选参数,该参数需要DeepTE_domain.py进行domain分析后提供 .
-UNS:提供该参数时-i为DNA序列,可以将输入的DNA序列分为TEs, CDS和基因间区。使用该参数不需要提供-sp和-fam(目前该参数只适用于植物)
-prop_thr:注释TE的可能性阈值,例如某个TE为ClassI的可能性为0.6,如果阈值设置为0.7,则该TE为被标记为'unknown',默认值为 0.6.

DeepTE_domain.py的参数包含-d、-o、-i参数的含义与DeepTE.py相同,这里不多做解释。

-s :提供的TE家族的domain信息,软件提供该目录:supfile_dir
--hmmscan :hmmscan的路径

应用实例

从Repbase随机选取拟南芥的重复序列作为输入序列,进行测试。使用DeepTE_domain.py对保守domain进行鉴定,命令行如下:
DeepTE_domain.py -d working_dir -o output_dir -i Arabidopsis.repeat.fasta -s supfile_dir --hmmscan hmmer-3.1b1/bin/hmmscan

生成结果:

  • output_dir/opt_te_domain_pattern.txt,该文件分为2列,第一列为序列名称,第二列为鉴定到保守domain信息。该结果可以作为DeepTE.py的输入文件。

使用DeepTE.py借助上一步的保守domain信息分类TE,命令行如下:
DeepTE.py -o TE_claasify_out -d working_dir -i Arabidopsis.repeat.fasta -m_dir model_dir/Plants_model -sp P -modify output_dir/opt_te_domain_pattern.txt

注:-modify提供的为DeepTE_domain.py生成的结果,如不提供该参数,则不借助domain鉴定的信息。

生成结果:

  • TE_claasify_out/opt_DeepTE.fasta和
  • TE_claasify_out/opt_DeepTE.txt
  • TE_claasify_out/opt_DeepTE.txt:第一类为序列名称,第二列为序列分类信息,(ATENSPM4#DNA/CMC-EnSpm ClassII_DNA_CACTA_nMITE)
  • TE_claasify_out/opt_DeepTE.fasta:为分类后的序列,原始的序列名称和类别用"__"分隔(ATENSPM4#DNA/CMC-EnSpm__ClassII_DNA_CACTA_nMITE)


结语

TE类型众多,分类问题一直以来都是一个难题。测试数据选取的已知类型的TE,从deepTE的分类结果来看,某些序列分类准确性较高,上图中红框部分为已知类型和deepTE分类类型一致的序列,deepTE利用了Repbase的TE作为了训练集,因此分类的准确性比较高。如果采用denovo注释到的TE,可以结合软件的结果和deepTE的分类结果以得到更准确的结果。

参考文献

Yan, H., A. Bombarely, and S. Li, DeepTE: a computational method for de novo classification of transposons with convolutional neural network. Bioinformatics, 2020. 36(15): p. 4269-4275.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容