登录注册写文章

如何快速将参考基因组拆分为各条染色体序列？

生物信息与育种

如何快速将参考基因组拆分为各条染色体序列？

需求

客户反映，完整的基因组太大打不开，要我将之按各条染色体和scaffold拆分。如何快速实现？

方法一

借助工具：

$ pip install pyfaidx
$ faidx -x sequences.fa

方法二

自己写脚本：split.pl

#!/usr/bin/perl

$f = $ARGV[0]; #get the file name

open (INFILE, "<$f")
or die "Can't open: $f $!";

while (<INFILE>) {
$line = $_; 
chomp $line;
if ($line =~ /\>/) { #if has fasta >
close OUTFILE;
$new_file = substr($line,1);
$new_file .= ".fa";
open (OUTFILE, ">$new_file")
or die "Can't open: $new_file $!";
}
print OUTFILE "$line\n";
}
close OUTFILE;

运行：perl split.pl sequences.fa

放到一个目录中，gzip -r dir一并发给客户。

https://www.biostars.org/p/173723/
http://seqanswers.com/forums/archive/index.php/t-32162.html

推荐阅读更多精彩内容

使用bioawk对基因组fasta序列ID（染色体/scaffold名称）排序？
需求已知某基因组序列，染色体或scaffold ID顺序不定，想要对其按数字排序。原顺序：想要的排序结果： ...
生物信息与育种阅读 6,471评论 0赞 5
multiple whole genome alignment
写在前面：在上亿年的进化历程中，基因组经历了大大小小的改变。从小的核苷酸突变、插入、缺失到大的基因缺失、重复、基因...
扇子和杯子阅读 16,675评论 23赞 30

讨厌又迷人的reads去重复
在NGS分析入门阶段，我们不需要考虑太多的细节，只用知道一个分析的大致流程并完整跑下来即可。太多的细节，只会让我们...
鹿无为阅读 23,914评论 6赞 92
关于人类参考基因组的一些认识
1. 如何选择参考基因组？——李恒2017年年底博客 1.1 三种选择如果比对到GRCh37/hg19，使用： ...
TOP生物信息阅读 14,406评论 0赞 19
基因组学数据分析常用的在线资源
奋斗在人类组学数据分析的一线，要随时跟上最新的研究进展。大型的研究项目会有全面的数据集和可视化工具，也有专门从各个...
BryceBryce阅读 9,598评论 2赞 24

5赞6赞

赞赏

手机看全文