在拿到单细胞测序数据后,非常关键的一步是做细胞类型鉴定,如果这一步不准确,那么后续所有分析都将不可靠。这需要有比较准确而合适的marker基因列表,然而大部分情况下marker基因的整理都是一个令人头大且耗时的工作,有没有什么比较好的办法呢?
答案是肯定的。
目前有大量的公开的单细胞数据库可以供我们查询和下载,另外还有一些知名抗体公司整理的marker,比如eBioscience公司的Immune Cell Guide。
关于单细胞数据库的使用,已经有非常多的牛人做了使用讲解(点击下面的使用参考可以详细查看)。笔者在此将各数据库做整理和汇总,供大家参考(随意排序)。
1、CellMarker
http://biocc.hrbmu.edu.cn/CellMarker
哈尔滨医科大学李霞/Yun Xiao教授团队出品,2018年发表于核酸研究(Nucleic Acids Research)。
该数据库包括来源于100000+已发表文献整理出来的:
人的158种组织/亚组织、467个细胞类型、13605个Marker基因;
小鼠81种组织/亚组织、389个细胞类型、9148个Marker基因。
用户可以通过选择物种、组织类型、细胞类型来查询marker基因,也可以下载marker基因列表,还可以上传自己的文章或数据。不过自2018.11.3后,网站未显示更新。
搜索查询marker基因最有用的一个网站(人的数据更多)!
使用参考:CellMarker:细胞标记好帮手!
2、PanglaoDB
来自瑞典卡洛琳学院的研究人员开发的PanglaoDB数据库,用于探索小鼠和人类scRNA-seq数据,为单细胞组学研究提供公共scRNA-seq数据资源。相关研究成果2019年发表在《Database》。
PanglaoDB数据库收集并整合来自多个研究的数据,包括:
小鼠的184种组织、1063个样本、446W细胞;
人的74种组织、305个样本、112w细胞。
PanglaoDB涵盖了大多数主要的单细胞平台和分析流程,在线界面允许用户查询和探索细胞类型、遗传途径和调控网络。用户可以通Search功能,查看基因(可使用and/or搜索多个基因)在细胞中的表达情况,也可查看某个细胞类型的marker基因有哪些,还可以下载marker基因和原始数据进行分析。
网站从2018.11开放后,最近更新是在2020.5.21(转移新主机)。不过作者也是耿直boy,明说了这个项目既没有资助也没有维护,所以你留了言我也不一定会回复你。
搜索查询marker基因最有用的第二个网站(小鼠的数据更多)!
使用参考:PanglaoDB:一个可以在线分析scRNA-seq数据的网站
3、CancerSEA
http://biocc.hrbmu.edu.cn/CancerSEA/
哈尔滨医科大学李霞/Yun Xiao教授团队出品,用于破译癌症单细胞功能状态的数据库:2019年1月发表在《Nucleic acids research》。研究癌症单细胞和lncRNA的可以关注!
CancerSEA包含25种癌症的41900个肿瘤细胞,14种癌症相关功能状态,提供了一个癌症单细胞功能状态的图谱,并在单细胞水平上将这些功能状态与蛋白编码基因(PCGs)和lncRNA联系起来,以促进对癌细胞功能差异的机制性理解。
CancerSEA允许用户查询基因(包括PCGs和lncrna)与14种功能状态之间的关系。Easy-to-use接口提供搜索、浏览、可视化和下载数据功能。可以通过基因查询其功能状态、通过功能状态寻找基因、通过癌症名称和功能状态查询相关基因。
使用参考:这个数据库居然能提供癌症研究思路?
4、LnCeCell
http://www.bio-bigdata.net/LnCeCell/
哈尔滨医科大学李霞教授团队出品(没错,又是李教授团队,实际上他们还开发了很多的非常有用的lncRNA数据库比如lnc2cancer、LnCeVar、LncTarD等),对单细胞lncRNA和ceRNA分析感兴趣的话可以关注。
LnCeCell对来自25种癌症的数千种细胞的细胞特异性ceRNA调控的整理,包含:
(i)>9000个实验支持的肿瘤转移、复发、预后、循环和耐药性的lncRNA生物标志物;
(ii)原发性、恶性和转移性癌细胞和免疫细胞的细胞特异性ceRNA网络;
(iii)从文献和相关数据源手工输入的ceRNA亚细胞位置的详细信息;
(iv)表现出血管生成、凋亡、细胞周期、侵袭、增殖和干性等不同行为的不同细胞群集群。
LnCeCell提供超便捷、超颜值的搜索和浏览界面,并贴心的提供了一系列灵活的工具,方便数据的检索和分析,包含:在不同细胞群中发现的ceRNAs的全局图、ceRNAs的亚细胞位置、可视化单个细胞中失调的ceRNA网络、查看每个细胞的功能状态、识别ceRNA的失调功能、识别ceRNA的癌症Hallmark、进行Cox回归分析、绘制ceRNAs的生存曲线。
使用参考:LnCeCell: One Cell, One World
5、ColorCells
http://rna.sysu.edu.cn/colorcells/
中山大学郑凌伶教授团队开发,发表于Briefings in Bioinformatics (IF=8.99)。这是一个用于比较分析单细胞RNA-Seq数据中lncRNAs表达、分类和功能的数据库。从6个物种的167913个公开的scRNA-Seq数据集进行分析,发现了一批细胞特异性lncRNAs。用户可以在Search页面通过细胞系或组织、基因名称、基因ID、GEO ID和Pubmed ID等进行搜索查询。研究单细胞lncRNA的话可以关注!
使用参考:ColorCells:一个轻松完成单细胞lncRNA分析的数据库
6、****SC2disease
http://easybioai.com/sc2disease/
来自西北工业大学、西安交通大学、哈尔滨工业大学、复旦大学和天津大学的研究团队共同开发的、人工整理的人类疾病单细胞转录组数据库,发表于Nucleic Acids Research,旨在为不同疾病的不同细胞类型的基因表达谱提供全面准确的资源。
研究团队通过回顾2020年3月之前使用scRNA-seq研究人类样本疾病的文献,按不同疾病、组织和细胞类型汇总所有数据。SC2disease记录了946481个条目,对应341种细胞类型、29种组织和25种疾病。数据库中的每个条目都包含了不同细胞类型、组织和疾病相关健康状况之间差异表达基因的比较。
SC2disease主要有三个优势:
是第一个基于scRNA-seq的人类疾病相关细胞类型特异性基因资源;
重新分析了基因表达矩阵,使不同疾病之间的细胞类型特异性基因具有可比性;
还提供了GWAS和scRNA-seq的结果,方便研究者探索基因的发病机制。
用户可以浏览感兴趣的基因的表达、搜索细胞型标志物、搜索多种疾病的生物标志物、比较疾病和非疾病状态下各类细胞的表达谱。
7、HCA(Human Cell Atlas)
https://data.humancellatlas.org/
人类细胞图谱计划,目前规模比较大、覆盖比较全面的单细胞数据库。由欧洲EBI、BROAD研究所、Chan Zuckerberg Initiative (CZI) 和UCSC大学共同牵头,全球超过81个实验室参与。数据库目前包括289个供者、33种组织器官、703个样本、390万个细胞,DCP2.0还加入了小鼠的图谱数据。目前总计36个人类、13个小鼠的图谱项目。可以搜索project的详细信息、并下载Metadata和Matrices数据自行分析。
8、SCP(Single Cell Portal)
https://singlecell.broadinstitute.org/single_cell
BRAOD研究所开发,数据库首页非常简洁,包括数据检索框,可以按 study 或者 gene 进行检索,以查询实验设计和基因在不同cell type中的表达情况。
目前已收录321个study的1235万个细胞。需要注册才能下载数据。
使用参考:单细胞测序数据挖掘工具——Single Cell Portal介绍
https://cloud.tencent.com/developer/article/1471483
9、SCEA(Single Cell Expression Atlas)
https://www.ebi.ac.uk/gxa/sc/home
欧洲EMBL-EBI的单细胞数据库,收集了包括14个物种、181个study、403万个细胞。
可以按gene和experiment检索实验设计、分析参数、下载marker基因和表达数据矩阵等。
10、HCL(Human Cell Landscape)
浙江大学郭国骥教授开发,包括人类50种组织的超过70万个细胞,划分为102个cluster,可以查询每种组织、每个cluster的marker基因。可以上传和下载数据自行分析。
11、MCA(Mouse Cell Atlas)
http://bis.zju.edu.cn/MCA/index.html
浙江大学郭国骥教授开发,包含14种小鼠组织的超过80万个细胞,分成104个cluster,可以查询每种组织、每个cluster的marker基因。可以上传和下载自行分析。MCA2.0版本正在更新之中。
使用参考:Mouse Cell Atlas:小鼠单细胞图谱,专业 //www.greatytc.com/p/61a30837ee30
12、CDCP
国家基因库单细胞数据库Cell-omics Data Coordinate Platform,收录6个物种、17个项目、7124个样本的12万个细胞,目前数据和功能还比较少,只开发了人和猴子的数据查询和下载,无法做可视化。
13、scRNASeqDB
https://bioinfo.uth.edu/scrnaseqdb/
第一个人类单细胞转录组数据库,数据库收录了38个单细胞转录组数据集的13440个样本的信息,其中GEO数据库中的数据集有36个,用户可根据基因gene或细胞类型cell来搜索基因表达的信息,同时scRNASeqDB还提供可查询和可视化工具,包括基因、细胞类型或群体间差异表达基因的注释信息,另外用户还可以通过Dataset View功能浏览数据库的数据信息。
使用参考:单细胞测序数据库介绍(SCPortalen、scRNASeqDB) http://www.sci666.net/24888.html
14、Cell BLAST
Cell BLAST是一个自带高质量参考数据库ACA的scRNA-seq数据检索/注释工具,能做细胞类型鉴定、发现新细胞类型、注释连续细胞状态。这个网站由北京大学的高歌研究员团队研发,2020年7月份发表在《Nature Communications》,这一数据库为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。(值得一提的是,跟李霞教授一样,高老师团队还开发了非常好用的lncRNA数据库AnnoLnc、以及植物转录因子PlantTFDB等广受好评的数据库)
用户可以通过上传数据,进行细胞类型鉴定、发现新细胞类型、注释连续细胞状态等分析,也可以下载数据集和python程序包自行分析。
使用参考:Cell BLAST:scRNA序列数据查询和注释工具
15、signatureDB
https://lymphochip.nih.gov/signaturedb/
B cell数据库,发表2018新英格兰杂志Genetics and Pathogenesis of Diffuse Large B-Cell Lymphoma.
数据以表格的形式进行展示,仅供自行下载研究。
16、VascularSingleCells
http://betsholtzlab.org/VascularSingleCells/database.html
作者构建了小鼠脑和肺血管及血管相关细胞类型数据库,包含脑的3436个单细胞单细胞转录组以及小鼠肺的1504个单细胞转录组。
17、CellPhoneDB
细胞间通讯网络研究必备,由英国Wellcome Sanger Institute的Teichmann Lab和Vento-Tormo Lab开发。需下载自行分析。
18、GRNdb
转录因子及其下游靶基因形成的基因调控网络(Gene Regulatory Network, GRN)数据库。由华东师范大学等多家机构科研团队开发,是一个免费的人类和小鼠数据库,旨在方便搜索和分析转录因子(TFs)和下游靶基因(称为调控子)在各种组织/条件下形成的调控网络。
基于已知的TF-target关系和从公共数据库收集的大规模单细胞转录组数据,以及TCGA和GTEx数据,研究人员系统地预测了184种不同生理和病理条件下的人和小鼠的GRNs,涉及超过633000个细胞和超过27700个样本。GRNdb可搜索、比较、浏览、可视化和下载77746个GRN、19687841个TF-target以及相关结合motif的预测信息。
使用参考:GRNdb:单细胞水平的基因调控网络数据库 https://my.oschina.net/u/4594634/blog/4950816
19、SpatialDB
https://www.spatialomics.org/SpatialDB/
2019年11月,中国科学院生物物理研究所高通量测序中心陈润生院士团队发布第一个单细胞空间转录组数据库及数据在线可视化平台:SpatialDB,为研究组织的空间细胞结构提供了一个资源库,并可能为理解疾病中的细胞微环境带来新的见解。其相关研究成果已发表在《Nucleic acids research》。
SpatialDB系统收录了来自5个物种由8种空间转录组技术产生的数据,建立了空间转录组数据分析处理流程,实现了空间转录组数据的在线可视化,同时提供了空间差异表达基因及其功能富集分析的注释。包括5个物种(人类、小鼠、果蝇、秀丽隐杆线虫和斑马鱼)的24个空间转录组数据集,这些数据集由8种空间分辨转录组技术生成,包括ST、Slide-seq、LCM-seq、seqFISH、MERFISH、Liver single cell zonation、Geo-seq和Tomo-seq。
用户可以从不同技术的所有数据集中获得目标基因的空间表达信息、浏览数据集中的空间差异表达基因及目标基因的空间表达信息、比较任意两个数据集的空间基因表达谱、也可以上传或下载数据。
20、Brain RNA-Seq
http://web.stanford.edu/group/barres_lab/brain_rnaseq.html(目前暂不可用)
该数据库纯化了小鼠大脑皮层的神经元、星形胶质细胞、少突胶质前体细胞、新形成的少突胶质细胞、髓鞘少突胶质细胞、小胶质细胞、内皮细胞和周细胞,通过RNA测序为这八种细胞类型生成了转录组数据库。进一步通过生物信息学分析鉴定了数千种新的细胞类型富集基因和剪接异构体,这些基因和异构体将为细胞鉴定提供新的标记物。
21、SCPortalen
http://single-cell.clst.riken.jp/(目前暂不可用)
日本RIKEN研究所开发
22、scTPA
http://sctpa.bio-data.cn/sctpa(目前暂不可用)
scTPA是用于在人和小鼠中基于生物途径激活进行单细胞转录组分析和注释的网络工具。数据库收集了具有不同功能和分类的大量生物途径,这有助于识别细胞类型注释和解释的关键途径签名。优化了四种不同的途径激活评估方法的可执行代码,以使运行时间减少4至56倍。提供了单细胞途径激活概况的分析和可视化功能,例如细胞聚类和注释,标记途径及其相关基因的鉴定,从面向途径的角度,这将有助于更好地了解细胞类型和状态。
温州医科大学苏建忠教授课题组开发,于2020年5月表于国际知名期刊Bioinformatics(影响因子:5.61)
使用参考:scTPA:单细胞转录组分析和注释工具
CellMarker: a manually curated resource of cell markers in human and mouse.Nucleic Acids Research.2018.
Oscar Franzén, Li-Ming Gan, Johan L M Björkegren, PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data, Database, Volume 2019, 2019, baz046, doi:10.1093/database/baz046
CancerSEA: a cancer single-cell state atlas. Nucleic Acids Res. 2019.
LnCeCell: a comprehensive database of predicted lncRNA-associated ceRNA networks at single-cell resolution.Nucleic Acids Research, 2021
Zheng L L, Xiong J H, Zheng W J, et al. ColorCells: a database of expression, classification and functions of lncRNAs in single cells[J]. Briefings in Bioinformatics, 2020.
SC2diseases: a manually curated database of Single-Cell Transcriptome for human diseases, Nucleic Acids Research, 2020
Han, X. et al. Construction of a human cell landscape at singlecell level. Nature https://doi.org/10.1038/s41586-020-2157-4 (2020)
scRNASeqDB: A Database for RNA-Seq Based Gene Expression Profiles in Human Single Cells.Genes (Basel). 2017 Dec 5;8(12). pii: E368
*Cao, ZJ., Wei, L., Lu, S. et al. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST. Nat Commun 11, 3458 (2020). *https://doi.org/10.1038/s41467-020-17281-7
He L, Vanlandewijck M, Mäe MA, et al. Single-cell RNA sequencing of mouse brain and lung vascular and vessel-associated cell types. Sci Data. 2018
CellPhoneDB: Inferring cell-cell communication from combined expression of multi-subunit receptor-ligand complexes Efremova M, Vento-Tormo M, Teichmann S, Vento-Tormo R. Nat Protoc. 2020 Apr;15(4):1484-1506. doi: 10.1038/s41596-020-0292-x. Epub 2020 Feb 26
Zhen Fan, Runsheng Chen and Xiaowei Chen. SpatialDB: a database for spatially resolved transcriptomes. Nucleic Acids Research. DOI:10.1093/nar/gkz934