Why CrossMap?
基因组测序往往是一个连续性的工作,后续的版本会对之前的版本进行修正和更新,这就造成了版本间碱基坐标的差异。研究人员常常需要将根据旧基因组版本分析的结果转换到新的版本,如 hg19 -->> hg38 。
How it works?
Algorithm
CrossMap首先根据链接文件chain file确定不同基因组版本间的对应关系,基因组intervals会被存储在 interval tree 中,这种数据结构将会高效的找到与某个特定interval或位点重叠的所有interval。之后CrossMap通过查询interval tree将BAM/SAM, BED, GFF/GTF, VCF文件中的每条记录重新映射到目标基因组版本上。
Installation
pip install crossmap
conda install -c bcbio crossmap
Usage
python CrossMap.py bed hg18ToHg19.over.chain.gz test.hg18.bed3
关于连接文件及其他详细信息请参考:项目主页