使用R package ggseqlogo 简单绘制sequences logo

之前看基因家族相关的文章绘制 sequences logo 基本会使用 meme+webologo 的组合,前一阵子在公众号 R语言中文社区 推送的文章中发现了R语言的 ggseqlogo 可以用来绘制 sequences logo,好多种颜色可供选择,结果非常漂亮,帮助文档十分详细,使用也相对简单。

简单记录使用meme鉴定保守基序,简单处理meme结果文件成R语言可读取的格式,最后用ggseqlogo绘图的过程

先上结果图

本地meme所用到的的命令

/usr/yanming/Bioinformatic/MEME/meme_4.12.0/bin/meme PgLHC_candidate_16.fasta -protein -oc PgLHC_motif 

-nostatus -mod anr -nmotifs 5 -minw 6 -maxw 50 -maxsize 600000000

-oc 后接输出的结果文件

-mod 后接的应该是方法,有三个参数可选 oops zoops anr 具体是什么意思自己也不太懂,好像是anr参数比较好,但是相对运行时间会比较长

-nmotif 后接要搜索的motif的数量

-minw -maxw 后接motif的最短和最长的长度

-maxsize 如果蛋白的fasta文件中序列数量较多就需要相应增到后面接的数字


一直都会遇到报错,因为可以输出结果,也就没有仔细探究报错的原因


输出的结果就是对应的motif的图片,应该可以直接使用,如果要自己绘制的话需要用到meme.txt文件


这是结果文件中的保守基序之一,将其复制到一个新的文件中简单处理成R可以读入的格式,我用的是linux的cut命令

cut -d ")" -f 2 | cut -d " " -f 2 > ggseq_logo_input.txt

首先用括号作为分隔符提取第二列,用竖线将上一步的结果传递给下一步作为输入,再用空格作为分隔符提取第二列,再用大于号重定向到结果文件中

结果


R绘图的代码


结果就是这样似的

meme在线用法


结果

第一步

PS:今天Xftp链接服务器莫名其妙的就没有了文件的下载权限,什么原因???搞不太明白,正常拖拽上传,却不能拖拽下载

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 在做数据分析时,有两种解决问题的策略,一种是自己写代码处理数据,一种是用开源在互联网的工具。 如果你代码写的贼流,...
    xuzhougeng阅读 5,817评论 2 11
  • 第十章 使用序列数据 生物信息学的核心问题之一是处理大量的(通常定义糟糕或模糊)文件格式。久而久之,一些特定的简单...
    yangliunk1987阅读 5,090评论 3 53
  • MEM-ChIP的特性 MEM-ChIP程序可以对你提供的DNA序列进行一系列的motif分析,他特别适合用来分析...
    面面的徐爷阅读 6,049评论 2 7
  • 五月的阿坝 有花、有雪更有悠古神秘的传说 我十分想念这片圣地 我迫切的想回到这悠然、宁静的山水画卷之中 去感受最自...
    请叫我黑妞阅读 273评论 3 3
  • 今天早上看到这样一句话,“十年前说话温柔的人,十年后愈加温和低调。十年前说话刻薄的人,十年后愈加盛气凌人。”简直说...
    奕安记阅读 1,250评论 2 1