genome threader手册

介绍:

GenomeThreader是一个基于相似性预测基因结构的软件。它使用额外的cDNA/EST或蛋白质序列通过剪接比对预测基因结构。

  • 内含子切除技术:
    内含子切除技术对核心动态规划算法进行扩展,克服了处理长内含子基因组算法的空间和时间限制。
  • 高度参数化:
    有很多参数

1. 组成:

genome threader由几个基因预测工具组成。gth是其中最重要的一个,用来计算基因结构。

除了gth,还有一些其他的工具:

  • gthconsensus通过intermediate文件(中间文件?)获得一致的剪接比对
  • gthsplit分割intermediate文件
  • gthgetseq从intermediate文件处获得FASTA文件
  • gthfilestat描述intermediate文件中剪接比对的各个统计量
  • gthbssmfileinfo展示BSSM的信息
  • gthbssmtrain训练BSSM
  • gthbssmbuild构建BSSM文件
  • gthclean.sh移除所有的索引(indice)

gth产生intermediate文件;
BSSM 即贝叶斯剪接位点模型(Bayesian Splice Site Model)


2. 安装注意事项:

  • 把bin目录添加到PATH变量里;
  • 确保bssm文件夹、gthdata文件夹、可执行文件在同一个目录里。否则需要分别创建BSSMDIR、GTHDATADIR来指明他们的位置。
#针对bash
$ export BSSMDIR="$HOME/gth-1.6.1-Linux i686-32bit/bin/bssm"
$ export GTHDATADIR="$HOME/gth-1.6.1-Linux i686-32bit/bin/gthdata"
  • 可以指定多个目录,但需要在对应的环境变量中用冒号分隔

3. gth:

3.1. 语法:gth [options] -genomic genseqfiles -cdna cdnafiles -protein proteinfiles
3.2. option介绍
3.2.1. 输入选项
  • -genomic:需要预测基因结构的基因组文件;
  • -cdna:被剪接、比对到基因组的cDNAs/ESTs;
  • -protein:被剪接、比对到基因组的蛋白质;

1.必须要提供基因组文件(要不然比啥呢)。cdna和protein有一个就行。

2.针对输入文件,支持以下格式:
I. multiple FASTA format:以 > 开始。以 > 开头的行包含其后序列的说明;
II. multiple EMBL/SWISSPROT format:以字符串ID开始。ID和DE行包含对应序列的说明。 EMBL格式和SwissProt格式一样;
III. multiple GENBANK format:以字符串LOCUS开始。LOCUS 和DEFINITION-lines包含对应序列的说明;
IV. Plain format:如果不属于上面的三种类型,将整个文件作为输入文件(包括空格)

3.2.2. 参数文件选项

未指定BSSM参数文件时,使用通用剪接位点模型

  • -species:使用针对特定物种的BSSM文件。在运行文件的目录和BSSMDIR里搜索。


    提供12个物种的贝叶斯剪接位点文件
  • -bssm:加载BSSM参数文件。会在当前路径和BSSMDIR里搜索

  • -scorematrix:氨基酸替换矩阵,用于与蛋白质的剪接比对。默认打分矩阵为BLOSUM62。在运行文件目录和GTHDATADIR里搜索。

class:选用二分类贝叶斯模型还是7分类贝叶斯模型训练参数
对号:表示对应BSSM文件里有该donor或acceptor的的模型

-species 和-bssm不能一起用,否则会报错

3.2.3. 链方向选项
  • -f: 只分析基因组的正链
  • -r: 只分析基因组的负链
  • -cdnaforward: 只比对cnda的正链
  1. DNA是双链的,对于一个参考基因组,指定其中一条链为forward链,那么另一条就是reverse链,并没有什么生物学意义。
  2. 不能同时使用-f和-r。但是如果两个都不用的话,默认分析基因组的两条链
3.2.4. 基因组序列位置选项

基因组序列中的位置以1开头。以下选项用于指定需要预测基因结构的基因组序列,只适用于一个基因组序列的情况

  • -frompos: 指定要分析的基因组区域的第一个位置i(正整数)
  • -topos: 指定要分析的基因组区域的最后一个位置j(正整数)
  • -width: 仅分析宽度为w的基因组区域
  1. 必须要用-frompos,-topos和-width用一个就可以。
  2. 如果使用选项-frompos,程序将自动设置-inverse,会消耗大量内存。如果可以取出感兴趣的基因组序列,然后再用gth分析的话,便可以避免这个问题
3.2.5. 输出选项
  • -v: 提供有关不同步骤以及计算资源要求的报告。 会很长···
  • -xmlout: 以xml格式展示结果
  • -gff3out: 以gff3格式展示结果。要么是剪接比对(设置 -intermediate),要么是保守剪接比对(设置-skipalignmentout)
  • -md5ids: 将MD5指纹作为序列ID
  • -o: 重定位输出文件
  • -gzip: 用gzip压缩-o指定的输出文件
  • -bzip2: 用bzip2压缩-o指定的输出文件
  • -force: 强制写入-o指定的输出文件。默认,仅在文件不存在时写入。
  • -skipalignment: 跳过剪接、比对的输出
  • -mincutoffs:展示完整的拼接比对。 即,在比对的任一侧仅切除插入物和内含子。(不是很理解)
  • -showintronmaxlen: 可以展示的内含子的最大长度。如果内含子大于设定值,则显示其缩写形式。设为0时可以显示所有外显子(无论多长)
  • -minorflength: 最小阅读框长度(大于0,整数)。默认为64
  • -startcodon: ORF必须以起始密码子开头
  • -finalstopcodon: 要求最后的ORF必须以终止密码子结尾。
  • -showseqnums: 在输出中显示序列号。即在描述用于剪接比对的序列时添加序列编号。从0开始编号
  • -pglgentemplate: 在PGL行中展示基因组模版。默认为yes
  • -gs2out:以GeneSeqer2的格式输出结果。GeneSeqer2是genome threader的前身

如果同时使用-o和-v,-v产生的输出将不会重定向到-o指定的文件中。我们可以边保存计算结果,边在标准输出中查看进度。

3.2.6. 数据预处理选项

通过内部调用Vmatch包中的mkvtree实现

  • -maskpolyatails: 自动屏蔽cDNA/EST序列中poly(A)尾和poly(T)头。这对于正确注释基因结构很重要
  • -proteinsamp: 指定用于蛋白质文件索引构建的相关文件。内部调用mkvtree
  • -noautoindex: 如果调用的话,就不能自动构建索引文件,需要手动构建
  • -createindicesonly: 程序会在构建完索引后停下来。这将有助于genome threader的多个程序同时处理同一文件,而不会产生干扰
  • -skipindexcheck: 不检查索引。在genome threader的多个程序在同一文件的多个索引(-createindicesonly)上运行时用。可以加速预处理阶段。详情还是看帮助文档吧
  1. -maskpolyatails,-noautoindex ,-proteinsmap和-noautoindex 不能同时用。
  2. -createindicesonly 、 -noautoindex和 -skipindexcheck也不能同时用
3.2.7. 相似性过滤选项

预测和cDNAs/ESTs或蛋白质相似的基因组区域时用。通过内部调用Vmatch实现。

  • -inverse: 只会影响cDNAs/ESTs的处理。将query和subject调一下。让基因组当query,cDNAs/ESTs当subject

match query against subject

  • -duplicatecheck:设置剪接、比对相似项的标准。常用选项为none, id, desc, seq, or both
3.2.8. 一些乱七八糟的选项
  • -intermediate: 把输入文件分成多个部分,分别调用gth。在最后把结果合并起来。对于更新的cDNAs/ESTs或蛋白质数据库,-intermediate可以实现渐进式更新
  • -first:指定每个基因组DNA的最大剪接比对数。默认是0,即计算所有可能的剪接比对
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343