LTR-RTs的鉴定,LAI值的计算

LAI是一种新的评估基因组组装质量的评价标准。
LTR讲解
部分转载自//www.greatytc.com/p/f962d5c40fdf
LTR_retriever github
LTR_retreiver是一个整合工具,整合其他的LTR鉴定工具的结果,并且给出LAI值。

LTR-RTs 长末端重复反转录转座子的鉴定 目前推荐的是LTR_FinderLTR_harvest组合鉴定,之后使用LTR_retreiver整合两者的结果。

安装软件LTR_Finder

Install LTR_Finder

git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make

2021/09/19更新不要再使用LTR_finder了,oushujun最新优化出了支持多进程版的LTR_FINDER_parallel.用来替代LTR_finder。

直接从github下载即可使用

wget -c https://github.com/oushujun/LTR_FINDER_parallel/archive/refs/tags/v1.1.tar.gz
tar -zxvf v1.1.tar.gz
cd LTR_FINDER_parallel-1.1
perl LTR_FINDER_parallel

LTR_FINDER_parallel使用方法:

perl LTR_FINDER_parallel -seq ${genome} -threads 36 -harvest_out
#输出是${genome}.finder.combine.scn
genomefile="`basename ${genome}`"
mv ${genomefile}.finder.combine.scn ${species}.finder.scn

当使用conda时候,可能conda里和外面的perl版本不一致,所以调用的时候尽量使用绝对路径调用perl执行这个脚本。
可能会报错ListUtil.c: loadable library and perl binaries are mismatched (got handshake key 0xdb00080, needed 0xdb80080,解决办法是使用你的perl的完整路径和LTR_FINDER_parallel脚本所在的绝对路径!
LTR_FINDER_parallel参数:

  • -seq genome.fa 基因组文件
  • -threads 10 cpu数量
  • -harvest_out 输出格式为LTR_finder的格式
  • -size 5000000 指定分割的大小,默认是:5000000bp,即5M
  • -time 1500 指定子进程运行的时间,默认是:1500s
    如果你的基因组非常大,比如超过5G,或者更大,可以使用此处的-size-time参数,一般的小基因组直接使用默认值即可。这2个参数设定依据是,增大size,同时增长time,1M对应300s,缩小也是同样的比值关系。
    LTR_FINDER_parallel内设定使用的LTR_FINDER的参数是-w 2 -C -D 15000 -d 1000 -L 7000 -l 100 -p 20 -M 0.85,如果想修改内置的参数,需要手动修改LTR_FINDER_parallel文件第4行的设置。

Install LTR_harvest

axel -n 16 http://genometools.org/pub/genometools-1.6.1.tar.gz
tar -zxvf genometools-1.6.1.tar.gz
cd genometools-1.6.1
make -j8 install prefix=/share/home/software/genometools/ cairo=no
pathadd /share/home/software/genometools/
source ~/.bashrc

Install LTR_retriever

git clone https://github.com/oushujun/LTR_retriever.git
或者使用conda安装LTR_retriever
conda create -n LTR_retriever
conda activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h

开始分析

输入文件

基因组文件 genome.fa

输出文件

species.finder.scn 和species.harvest.scn

运行脚本

LTR.find.sh内容如下

#species="Pco"
#genome="/share/home/database/Pco/Pco.genome.fa"
if [ $# -eq 0 ] || [ $# -eq 1 ];then
    echo "Usage:
    bash LTR.find.sh Pco /share/home/database/Pco/Pco.genome.fa "
    exit 1
fi
species=$1
genome=$2
#LTRharvest
gt suffixerator \
  -db ${genome} \
  -indexname ${species} \
  -tis -suf -lcp -des -ssp -sds -dna
gt ltrharvest \
  -index ${species} \
  -similar 85 -vic 10 -seed 20 -seqids yes \
  -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
  -motif TGCA -motifmis 1  > ${species}.harvest.scn 
# LTR_FINDER_parallel代替LTR_FINDER
perl LTR_FINDER_parallel -seq ${genome} -threads 36 -harvest_out  -size 1000000 -time 300
#输出是${genome}.finder.combine.scn
genomefile="`basename ${genome}`"
mv ${genomefile}.finder.combine.scn ${species}.finder.scn

# LTR_FINDER鉴定LTR, 已经被LTR_FINDER_parallel代替
#ltr_finder -D 15000 -L 7000 -C -M 0.85 ${genome} > ${species}.finder.scn 

# LTR_retriever 合并前两次的分析
LTR_retriever -genome $genome -inharvest ${species}.harvest.scn -infinder ${species}.finder.scn -threads 16 -u  7e-9

运行方法:bash LTR.find.sh 物种名 物种的参考基因组文件
例如:bash LTR.find.sh TAIR /home/genome/TAIR10.fa
物种名可以是缩写,主要用于输出文件的前缀。
程序运行比较慢,主要是ltr_finder非常慢,没有找到多线程的方法。
LTR_retriever最后一行的进程数,可以根据服务器性能自行修改。-u参数是指定你的物种的进化速率,默认的是水稻的进化速率1.3e-8,此处改为拟南芥的7e-9.
如果你运行的时候没有加参数-u,可以根据计算公式T = (1 - identity) / 2µ,此处的μ就是输入的参数u的值,来反推正确的插入时间。或者是使用结果文件*.pass.list.gff3里的ltr_identity根据公式计算,identify实际是百分比,公式里的1代表100%。
手动计算LTR插入时间,使用下面的代码,只用修改genome.fa.pass.list.gff3为你实际输出的文件名即可
cat genome.fa.pass.list.gff3|awk '$3=="repeat_region"{split($9,a,";");print $1","a[3]","a[5]}'|sed 's/Classification\=LTR\///g;s/ltr_identity\=//g'|awk -F ',' '{print $1","$2","(1-$3)/((7e-9)*2)}' >LTRtime.csv

注意:

LTR_retriever要求输入的基因组文件的chr的字符串长度不超过15,如果包含scaffold,请修改为15字以内,或者是可以舍去scffold,只留下chr。

输出结果讲解

最终会输出一个genome.fa.out.LAI依据你输入的genome决定,例如:TaIR10.fa 输出结果就是TaIR10.fa.out.LAI .
cat TaIR10.fa.out.LAI |head

Chr     From    To      Intact  Total   raw_LAI LAI
whole_genome    1       523245110       0.0967  0.4732  20.43   18.32
Chr01   1       3000000 0.1917  0.7771  24.67   21.56
Chr01   300001  3300000 0.1973  0.7971  24.76   21.65
Chr01   600001  3600000 0.1976  0.8249  23.96   20.85
Chr01   900001  3900000 0.2032  0.8621  23.57   20.46
Chr01   1200001 4200000 0.1981  0.8769  22.59   19.48

第7列是每个位置的LAI的值,第2行最后一个就是整个基因组的LAI值。这个基因组是18.32可以看出质量不错。0.0967代表完整LTR-RT在基因组中占比9.67% , 0.4732代表LTR在基因组中比例为47.32%.
LAI的作者也给出评价标准:

LAI category
0<LAI<10 draft
10=<LAI<20 reference
LAI>=20 Gold

LTR_retriever最后过滤后的LTR_RTs文件是genome.fa.pass.list。这里面是过滤重复后通过的LTR_RTs.可以看出里面分为Copia和Gypsy,还有unknown。

多倍体数据,需要把亚组分开计算LAI,目前已经实现流程LTRfind

LTRfind地址 https://github.com/chaimol/bio_code/tree/master/pipline/LTRfind

植物是这种情况,动物也可以使用LTR_reviewer分析,只不过动物中LTR_RTs其他的类型不能被具体注释出来,需要自行从unknown类型中鉴定。

head genome.fa.pass.list

#LTR_loc        Category        Motif   TSD     5_TSD 3_TSD       Internal        Identity      Strand  SuperFamily  TE_type     Insertion_Time
Chr01:109718..119470    pass    motif:TGCA      TSD:AAAAC       109713..109717  119471..119475  IN:111581..117607       0.9973  -       Copia   LTR     103354
Chr01:151156..160815    pass    motif:TGCA      TSD:ACCTT       151151..151155  160816..160820  IN:152959..159011       0.9945  ?       unknown NA      214113
Chr01:259702..269481    pass    motif:TGCA      TSD:CGTTG       259697..259701  269482..269486  IN:261573..267609       0.9963  +       Copia   LTR     144256
Chr01:282588..292147    pass    motif:TGCA      TSD:CAATG       282583..282587  292148..292152  IN:284331..290404       0.9966  ?       unknown NA      132702
Chr01:406690..416424    pass    motif:TGCA      TSD:AAGGG       406685..406689  416425..416429  IN:408590..414524       0.9979  +       Copia   LTR     81086
Chr01:434887..439473    pass    motif:TGCA      TSD:GGCAA       434882..434886  439474..439478  IN:435372..438989       0.9959  -       Gypsy   LTR     159372

第1列是这个LTR-RTS的区间,包括5’LTR+INT+3'LTR.
第3列是motif:主要是TGCA,都是四个碱基,在5‘LTR和3’LTR左右各分布两个碱基。TG ...CA 图3中红色三角。
第4列TSD:重复序列,分布在5‘LTR左侧和3’LTR右侧。见图3中灰色块。
第5列5‘TSD和3’TSD的区间,这是在LTR-RTS区间的外
第6列Internal,是中间的区间。
第9列SuperFamily,植物中只有Gypsy和Copia两种类型,和unknown。unknown类型的可以自行提取序列,使用hmmer比对pfarm对应两个家族的蛋白,然后使用mafft比对,构建进化树。
第10列TE_type LTR或NA
第11列Insertion_Time,使用ggplot画出密度图,图2所示。

上面是默认的参数,如果鉴定结果不理想,可以对LTR-RTs的鉴定参数进行调整

gt ltrharvest \
  -index ${species} \
  -similar 85 -vic 10 -seed 20 -seqids yes \
  -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
  -motif TGCA -motifmis 1  > ${species}.harvest.scn 
# LTR_FINDER
ltr_finder -w 2 -C -D 15000 -d 1000 -L 7000 -l 100 -p 20 -M 0.85 ${genome} > ${species}.finder.scn 

LTR 长度设置为 100-7000 bp,5' 和 3' LTR 之间的距离设置为 1000-15,000 bp,5' 和 3' LTR 之间的最小相似性设置为 85%,LTR-FINDER 参数 -l 100 -L 6000 -d 1000 -D 15000 -M 0.85 -w 2。

可视化

cat Spohua.chr.fa.out.LAI|sed 's/Chr0/Chr/' |sed 's/Chr//' |sed '2d'|tr "\t" , >species.ltr.csv
手动给左边第一行第一个添加CHR。注意:染色体如果是Chr01要替换为Chr1,species.ltr.csv里是1.
物种的LTR的年代的密度图
species.LTR.Insertion_Time.csv是genome.fa.pass.list最后一列

library("ggplot2")
#读入文件
dat<-read.csv("species.LTR.Insertion_Time.csv",header=FALSE)
#除以100万
VAF<-dat$V1 / 1000000

#画图(出图结果中x轴是以mya(百万年)为单位的。)
ggplot(dat,aes(x=VAF))+geom_density(color = "red")+xlab('Mya')+ylab('Density')+
  scale_x_continuous(expand = c(0, 0)) + 
  #scale_y_continuous(expand = c(0, 0))+ #设置横纵坐标从0开始
  theme_classic()
ggsave('Speies.LTR.density.pdf',dpi = 300)

#求峰值
y_peak <- which.max(density(VAF)$y)#找y值最大的
x_peak <- density(VAF)$x[y_peak]#找出最大的y所对应的x   


#分类可视化,LTR-RTs的密度图
#LTR.typetime.csv是genome.fa.pass.list最后一列和倒数第三列。
#读入文件
dat1<-read.csv("LTR.typetime.csv",header=FALSE)
#预处理
names(dat1) <- c("VAF1","Type")
dat1$VAF1<-dat1$VAF1 / 1000000


#画图
ggplot(dat1,aes(x=VAF1))+geom_density(aes(color = Type))+xlab('Mya')+ylab('Density')+
  scale_x_continuous(expand = c(0, 0)) + 
  #scale_y_continuous(expand = c(0, 0))+ #设置横纵坐标从0开始
  theme_classic()
ggsave('SpO_LTR_type.density.pdf',dpi = 300)


#species.ltr.csv来源于genome.fa.pass.list,其中列BP再csv文件里不存在
#可视化各个染色体上的LAI得分
install.packages("qqman")
library("qqman")
library("ggplot2")
install.packages("ggsci")
library("ggsci")
library("scales")
manhattan(gwasResults)
head(gwasResults,50)
data2 <- read.csv('species.ltr.csv')
data2$BP <- (data2$From + data2$To)/2 
show_col(pal_d3("category20")(20)) #使用ggsci来选择颜色
show_col(pal_igv("default")(51)) #51种颜色绝对够用。
show_col(pal_ucscgb("default", alpha = 0.6)(26))
show_col(pal_gsea("default", n = 30, alpha = 0.6, reverse = TRUE)(30))
##根据你的染色体的数量,灵活修改col的配色的颜色数量。
manhattan(data2,chr="CHR",bp="BP",p="LAI",logp=F,ylab="LAI",genomewideline = F,SNP= F ,suggestiveline = F,col = pal_d3("category20")(17))
ggsave('LTR.manhattan.pdf',dpi=300)
ggsave('LTR.manhattan.png')

head(data2) 
# CHR    From      To Intact  Total raw_LAI   LAI      BP
# 1   1       1 3000000 0.1917 0.7771   24.67 21.56 1500001
# 2   1  300001 3300000 0.1973 0.7971   24.76 21.65 1800001
# 3   1  600001 3600000 0.1976 0.8249   23.96 20.85 2100001
# 4   1  900001 3900000 0.2032 0.8621   23.57 20.46 2400001
# 5   1 1200001 4200000 0.1981 0.8769   22.59 19.48 2700001
# 6   1 1500001 4500000 0.1759 0.8843   19.89 16.78 3000001

By default the mutation rate is 1.3e-8 per
bp per year (rice), so the unit is calendar year. You may specify a
different rate by providing -u/-miu.默认的变异速率是1.3E-8.

最后注意:LTR_retriever默认已经完成了LAI的分析。在前者完成后,不要再用LAI再分析,LAI的输出会覆盖之前的输出,而且算出的LAI的值还比之前低。多倍体的数据需要把亚组分开计算,可以使用LAI单独计算。

不同基因组的相同亚组可以放到一起比较LAI.


manhattan.png
Speies.LTR.density.png

LTR-RTs分类的讲解

LTR-RTs分类讲解.jpg

图中是LTR-retriever可以鉴定的LTR-RTs的种类。其中A类是主要的。植物中在5’LTR和3‘LTR的两端都有TG和CA结构。motif一般是TGCA,其他类型也能被鉴定出来。
大多数自主LTR元件的内部区域应包含引物结合位点,多嘌呤束,gag基因(即编码用于逆转录的结构蛋白)和pol基因(即起蛋白酶,逆转录酶和整合酶的作用

LTR-retriver输出文件

1.具有坐标和结构信息的完整LTR-RT
摘要表(.pass.list)
GFF3格式输出(.pass.list.gff3)
包含有pass的是过滤整合后的最终的结果
2.LTR-RT库
所有非冗余LTR-RT(.LTRlib.fa) #已经删除重复的序列
所有非TGCA LTR-RT(.nmtf.LTRlib.fa) #此文件可能没有
所有(.LTRlib.redundant.fa)的LTR-RT(有冗余) #所有的LTR-TR序列
3.非冗余文库的全基因组LTR-RT注释
GFF格式输出(.out.gff)
LTR系列摘要(.out.fam.size.list)
LTR超家族摘要(.out.superfam.size.list)
每个染色体上的LTR分布(.out.LTR.distribution.txt)
4.LTR组装索引(.out.LAI)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容