dbSNP(单核苷酸多态性数据库,Database of Single Nucleotide Polymorphisms) 是由 NCBI(美国国家生物技术信息中心,National Center for Biotechnology Information) 负责维护和管理的全球性变异数据库。
核心功能与特性
唯一标识符(rsID)
dbSNP 为每个变异分配一个唯一的参考标识符 rsID(Reference SNP cluster ID),如rs533316401
,方便科研人员在不同研究中共享和引用变异信息。在线查询
NCBI 提供了便捷的在线查询平台,用户可以通过 URL 查询感兴趣的 SNP 信息,例如:
https://www.ncbi.nlm.nih.gov/snp/rs533316401。
离线数据资源
dbSNP 提供多种格式的离线数据(如 VCF 格式),用户可以从 NCBI 的 FTP 服务器 下载。离线数据支持下游分析,例如 SNP 注释、功能预测或疾病关联研究。版本选择
用户可根据参考基因组版本(如 GRCh37 或 GRCh38)选择对应的 dbSNP 数据集,确保研究中数据的一致性和准确性。
数据分析工具与应用
-
快速查询与注释
使用工具如 bcftools 或 tabix,可以快速查询特定位置或变异的 rsID,并进行批量注释和筛选工作。 -
功能预测与关联分析
借助 dbSNP 数据,科研人员可开展 SNP 功能预测及疾病相关变异的深入研究。
利用 bcftools 查询 Variant 的 RS# 操作示例
① 下载 2024-10-25 最新版 dbSNP156(hg19)
wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz
wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz.tbi
wget https://github.com/Shicheng-Guo/AnnotationDatabase/blob/4b11dce4c65ceb666a143a611588cde1d754f3dc/GCF_000001405.25_GRCh37.p13_assembly_report.txt ### 用于转换染色体命名
② 数据库格式整理:
conda install -c bioconda -c conda-forge bcftools=1.15.1
awk -v RS="(\r)?\n" 'BEGIN { FS="\t" } !/^#/ { if ($10 != "na") print $7,$10; else print $7,$5 }' GCF_000001405.25_GRCh37.p13_assembly_report.txt > dbSNP-to-UCSC-GRCh37.p13.map
bcftools annotate --threads 48 --rename-chrs dbSNP-to-UCSC-GRCh37.p13.map GCF_000001405.25.gz -o dbSNP156.hg19.vcf.gz
bcftools index dbSNP156.hg19.vcf.gz
③ 基于chr:posi 查询RsID:
bcftools view -H -r chr1:754182 dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40| cut -f 1,2,3,4,5
④ 基于文件的多位点批量查询:
准备记录查询位点的文件,以 \t 分割的位点基因组坐标(chr, posi):
"""
chr1 752721
chr1 753405
chr1 753541
"""
执行批查询
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out
③ 基于RsID 查询变体信息:
准备位点的ID信息表
"""
rs11127467
rs10172629
rs10171242
rs78936662
"""
执行批量查询:
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out
A quite efficient way:conda install bioconda::plink2 plink2 --vcf dbSNP156.hg19.vcf.gz --extract snplist.txt --make-just-pvar --threads 10
plink2
检索 RsID 的时间相比bcftools
预计减少 ~50%.
Reference
Variation Glossary
How to download dbSNP153 vcf files in hg19/GRCH37 version
bcftools merge error: could not load index · Issue #1360 · samtools/bcftools
Fast way to return genomic regions for 10,000 SNPs in rsID