这方面的应用场景不多,之前偶尔遇到,使用的是网页工具:
http://genome.ucsc.edu/cgi-bin/hgLiftOver
一直没有出现什么问题,今天突然看到这个错误,暂时没有深究是什么导致的,想着换个命令行工具试试(网页工具体验一般不好)
在谷歌上搜索“genome coordinates conversion”,可以看到一个biostars上面的回答:https://www.biostars.org/p/65558/。推荐了很多工具:
- UCSC liftOver
- NCBI Remap
- The Ensembl API
- Assembly Converter
- Bioconductor rtracklayer
- CrossMap
- Picard Liftover VCF
......
我试了一下CrossMap
1. 安装
./pip install CrossMap
2. 下载Chain file
3. 使用
很简单,以bed为例
CrossMap.py bed chain_file input_bed_file [output_file]
./CrossMap.py bed \
NCBI36_to_GRCh38.chain.gz \
amplifications.bed \
amplifications_hg38.bed
有意思的是,行数变了,说明转换过程中对应的基因组区间不是连续的
wc -l amplifications.bed amplifications_hg38.bed
17 amplifications.bed
43 amplifications_hg38.bed