基于dbSNP 批量注释Variant (Rs#、POS、ALLELE...)

dbSNP(单核苷酸多态性数据库,Database of Single Nucleotide Polymorphisms) 是由 NCBI(美国国家生物技术信息中心,National Center for Biotechnology Information) 负责维护和管理的全球性变异数据库。

核心功能与特性

  1. 唯一标识符(rsID)
    dbSNP 为每个变异分配一个唯一的参考标识符 rsID(Reference SNP cluster ID),如 rs533316401,方便科研人员在不同研究中共享和引用变异信息。

  2. 在线查询
    NCBI 提供了便捷的在线查询平台,用户可以通过 URL 查询感兴趣的 SNP 信息,例如:
    https://www.ncbi.nlm.nih.gov/snp/rs533316401

Variant 基本信息

iVariant 基因组浏览器

  1. 离线数据资源
    dbSNP 提供多种格式的离线数据(如 VCF 格式),用户可以从 NCBI 的 FTP 服务器 下载。离线数据支持下游分析,例如 SNP 注释、功能预测或疾病关联研究。

  2. 版本选择
    用户可根据参考基因组版本(如 GRCh37 或 GRCh38)选择对应的 dbSNP 数据集,确保研究中数据的一致性和准确性。

数据分析工具与应用

  • 快速查询与注释
    使用工具如 bcftoolstabix,可以快速查询特定位置或变异的 rsID,并进行批量注释和筛选工作。
  • 功能预测与关联分析
    借助 dbSNP 数据,科研人员可开展 SNP 功能预测及疾病相关变异的深入研究。

利用 bcftools 查询 Variant 的 RS# 操作示例

① 下载 2024-10-25 最新版 dbSNP156(hg19)

wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz
wget https://ftp.ncbi.nih.gov/snp/archive/b156/VCF/GCF_000001405.25.gz.tbi
wget https://github.com/Shicheng-Guo/AnnotationDatabase/blob/4b11dce4c65ceb666a143a611588cde1d754f3dc/GCF_000001405.25_GRCh37.p13_assembly_report.txt ### 用于转换染色体命名

② 数据库格式整理:

conda install -c bioconda -c conda-forge bcftools=1.15.1
awk -v RS="(\r)?\n" 'BEGIN { FS="\t" } !/^#/ { if ($10 != "na") print $7,$10; else print $7,$5 }' GCF_000001405.25_GRCh37.p13_assembly_report.txt > dbSNP-to-UCSC-GRCh37.p13.map
bcftools annotate --threads 48 --rename-chrs dbSNP-to-UCSC-GRCh37.p13.map GCF_000001405.25.gz -o dbSNP156.hg19.vcf.gz
bcftools index dbSNP156.hg19.vcf.gz

③ 基于chr:posi 查询RsID:
bcftools view -H -r chr1:754182 dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40| cut -f 1,2,3,4,5

④ 基于文件的多位点批量查询:

准备记录查询位点的文件,以 \t 分割的位点基因组坐标(chr, posi):
"""
chr1 752721
chr1 753405
chr1 753541
"""
执行批查询
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out

③ 基于RsID 查询变体信息:

准备位点的ID信息表
"""
rs11127467
rs10172629
rs10171242
rs78936662
"""
执行批量查询:
bcftools view -H -R input.tsv dbSNP156.hg19.vcf.gz --regions-overlap 0 --threads 40 -o findRs.out
A quite efficient way:

conda install bioconda::plink2
plink2 --vcf dbSNP156.hg19.vcf.gz --extract snplist.txt --make-just-pvar --threads 10

plink2 检索 RsID 的时间相比 bcftools 预计减少 ~50%.

Reference

Variation Glossary
How to download dbSNP153 vcf files in hg19/GRCH37 version
bcftools merge error: could not load index · Issue #1360 · samtools/bcftools
Fast way to return genomic regions for 10,000 SNPs in rsID

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容