CellPhoneDB:细胞受体配体互作分析工具

最近在学习cellphoneDB,顺便写一个学习记录吧。

简介

CellPhoneDB是一个可公开获取的受体、配体及其相互作用的存储库。配体和受体都包含亚基结构,准确表征异质配合物。这是至关重要的,因为细胞与细胞之间的交流依赖于多亚基蛋白复合物,而这些复合物超越了大多数数据库和研究中使用的二元表述。
CellPhoneDB集成了与蜂窝通信有关的现有数据集和新的手动审查信息。CellPhoneDB获取信息的数据库有: UniProt, Ensembl, PDB, the IMEx consortium, IUPHAR。CellPhoneDB可用于搜索特定的配体/受体,或查询您自己的单细胞转录组学数据。

安装

注意: 可以使用Python v3.5或更高版本。建议使用python虚拟环境,但是您当然可以省略这些步骤,并立即通过pip进行安装。

#创建cpdb-venv环境
python -m venv cpdb-venv

#激活环境
source cpdb-venv/bin/activate

#安装cellphonedb
pip install cellphonedb

CellPhoneDB的运行方法

(1)如果之前没有激活cpdb-venv环境,请先激活

source cpdb-venv/bin/activate

(2)要使用示例数据,请下载meta/counts测试数据。即

curl https://raw.githubusercontent.com/Teichlab/cellphonedb/master/in/example_data/test_counts.txt --output test_counts.txt
curl https://raw.githubusercontent.com/Teichlab/cellphonedb/master/in/example_data/test_meta.txt --output test_meta.txt

(3) 运行statistical method的例子

cellphonedb method statistical_analysis test_meta.txt test_counts.txt

(4) 没有使用statistical method的例子

cellphonedb method analysis test_meta.txt test_counts.txt

可选参数:
~ Optional Method parameters:
--counts-data: [ensembl | gene_name | hgnc_symbol] counts data 中的基因标识符类型
--project-name: 项目名称,在输出文件夹中创建具有此名称的子文件夹
--iterations: 统计分析迭代次数[1000]
--threshold: 表达特定的配体/受体的细胞%
--result-precision: 结果中保留的小数位数[3]
--output-path: 输出文件路径 [out]
--output-format: 结果文件的输出格式(如果没有扩展名,将添加到文件名中) [txt]
--means-result-name: Means结果文件名[means]
--significant-means-result-name: 有显著意义的means 结果文件名 [significant_means]
--deconvoluted-result-name: Deconvoluted 结果文件名 [deconvoluted]
--verbose/--quiet: 打印或隐藏CellPhoneDB日志 [verbose]
--subsampling: 使二次抽样
--subsampling-log: 启用非对数转换数据输入的子采样log1p !!强制!!
--subsampling-num-pc: 子抽样NumPC参数(要使用的pc数量) [100]
--subsampling-num-cells: 要取样到的细胞数 [1/3 of cells]
~ Optional Method Statistical parameters
--pvalues-result-name: P-values 结果文件名 [pvalues]
--pvalue: P-value阈值 [0.05]
--debug-seed: 调试随机种子-1,要禁用它,请使用一个值>=0 [-1]
--threads: 要使用的线程数 >=1 [-1]

示例:

(1)设置迭代和线程的数量

cellphonedb method statistical_analysis yourmetafile.txt yourcountsfile.txt --iterations=10 --threads=2

(2)子项目文件夹

cellphonedb method analysis yourmetafile.txt yourcountsfile.txt --project-name=new_project

(3)设置输出路径

mkdir custom_folder
cellphonedb method statistical_analysis yourmetafile.txt yourcountsfile.txt --output-path=custom_folder

(4) 二次抽样

cellphonedb method analysis yourmetafile.txt yourcountsfile.txt --subsampling --subsampling-log false --subsampling-num-cells 3000

结果解读

(1)P-value (pvalues.txt), Mean (means.txt), Significant mean (significant_means.txt)
id_cp_interaction: 存储在数据库中的每个交互的唯一CellPhoneDB标识符。
interacting_pair: 由“|”分隔的交互对的名称。
partner A or B: 第一个交互伙伴(A)或第二个交互伙伴(B)的标识符。它可以是:UniProt(前缀 simple:)或复合物complex(前缀 complex:)
gene A or B: 第一个交互伙伴(A)或第二个交互伙伴(B)的基因标识符。该标识符将取决于输入用户列表。
secreted: True 如果其中一个伴侣是secreted。
Receptor A or B: True 如果第一个交互伙伴(A)或第二个交互伙伴(B)被注释为数据库中的一个受体,则为真。
annotation_strategy: 如果CellPhoneDB开发人员对交互进行了注释,则进行策划。否则,就是从其中下载交互的数据库的名称。
is_integrin: True 如果其中一个是整合素
rank: 每个交互作用的有效p值的总数除以细胞类型-细胞类型比较的数量。(只有在significant_means.txt)
means: 所有相互作用伙伴的平均值:平均值是指相应的细胞类型相互作用对中每个伙伴的平均表达值的总平均值。如果其中一个平均值为0,那么总平均值为0。(只有在mean.txt)
p.values: p 所有交互伙伴的p-值: p-值是指在每一对相互作用的细胞类型中相互作用的配体-受体对的富集。(只有在pvalues.txt)
significant_mean: 所有交互伙伴的有效平均值计算。如果p-值< 0.05,即为平均值。或者将值设置为0。(只有在significant_means.txt)
重要的是,相互作用不是对称的。在第一个集群上考虑合作伙伴A表达式,在第二个集群上考虑合作伙伴B表达式。换句话说:
clusterA_clusterB = clusterA expressing partner A and clusterB expressing partner B.
clusterA_clusterB 和 clusterB_clusterA 值是不同的。

(2)Deconvoluted (deconvoluted.txt)
gene_name: 参与所定义的相互作用的一个亚单位的基因标识符。标识符将取决于用户列表的输入。
uniprot: means.csv 文件中 参与定义的交互的子单元之一的UniProt标识符。
is_complex: 如果子单元是复合物的一部分,则为真。如果不是 Single 的,就是复合物的。
protein_name: means.csv 文件中参与所定义的相互作用的一个亚基的蛋白名称
complex_name: 如果子单元是复合物的一部分,则称为复合物。如果不是空的。
id_cp_interaction: 存储在数据库中的每个交互的唯一CellPhoneDB标识符。
mean: 各组相应基因的平均表达量。
绘制统计方法结果
为了绘制统计方法的结果,您需要首先运行统计分析。目前有两种可用的绘制类型: dot_plot和heatmap_plot。
一旦你有了所需的文件( means和 pvaluess),你可以进行如下操作:

cellphonedb plot dot_plot
cellphonedb plot heatmap_plot yourmeta.txt

(1)dot_pot
这种plot类型需要安装ggplot2 R包
你可以使用以下参数调整plot选项:
--means-path: The means output file [./out/means.txt]
--pvalues-path: The pvalues output file [./out/pvalues.txt]
--output-path: Output folder [./out]
--output-name: Filename of the output plot [plot.pdf]
--rows: File with a list of rows to plot, one per line [all available]
--columns: File with a list of columns to plot, one per line [all available]
--verbose / --quiet: Print or hide CellPhoneDB logs [verbose]
可用的输出格式是R的ggplot2包支持的输出格式,其中包括:
pdf
png
jpeg
该格式将从 --output-name参数中推断出来

只绘制所需的行/列(基于示例数据文件中的行和列示例):

cellphonedb plot dot_plot --rows in/rows.txt --columns in/columns.txt
dot_pot

(2)heatmap_plot
这个plot类型需要安装pheatmap R包,使用这个plot类型包括两个特性count和log_count
你可以使用以下参数调整plot选项:
--pvalues-path: The pvalues output file [./out/pvalues.txt]
--output-path: Output folder [./out]
--count-name: Filename of the output plot [heatmap_count.pdf]
--log-name: Filename of the output plot using log-count of interactions [heatmap_log_count.pdf]
--count-network-name: Filename of the output network file [count_network.txt]
--interactions-count-name: Filename of the output interactions-count file [interactions_count.txt]
--pvalue: pvalue threshold to consider when plotting [0.05]
--verbose / --quiet: Print or hide cellphonedb logs [verbose]
可用的输出格式是R的pheatmap包支持的输出格式,其中包括
pdf
png
jpeg
这种格式将从--count-name和--log-name参数中推断出来。


heatmap_plot

使用不同的数据库版本

(1)CellPhoneDB数据库可以通过我们的工具从远程存储库更新。此外,还可以列出和下载可用的版本以供使用。
要使用其中一个版本,用户必须为要执行的方法提供参数 --database <version_or_file>。
如果给定的参数是可读的数据库文件,则按原样使用。否则,它将使用一些与所选版本匹配的版本。
如果所选版本在本地环境中不存在,则将从远程存储库下载该版本。(见下文)。如果没有 --database参数在方法执行中给出,它将使用最新可用的本地版本。
下载的版本将存储在 ~/.cpdb/releases下的用户文件夹中
(2)列出可用的远程版本
从远程存储库中列出可用版本的命令是:

cellphonedb database list_remote

(3) 列出本地可用的版本
从本地存储库中列出可用版本的命令是:

cellphonedb database list_local

(4)下载
从远程存储库下载版本的命令是:

cellphonedb database download
##OR
cellphonedb database download --version <version_spec|latest>

其中version_spec必须是数据库list_remote命令中列出的命令之一。如果没有指定版本,或者使用最新版本作为version_spec,则下载最新可用的版本

cellphonedb应用于自己的单细胞转录组数据

library(Seurat)
library(tidyverse)

#提取肿瘤样本03T
scRNA <- sce
sp1 <- scRNA[,str_detect(colnames(scRNA),'03T')]
sp1_counts <- as.matrix(sp1@assays$RNA@data)
sp1_counts <- data.frame(Gene=rownames(sp1_counts), sp1_counts)
sp1_meta <- data.frame(Cell=rownames(sp1@meta.data), cell_type=sp1@meta.data$new.cluster.ids)
write.table(sp1_counts, "test_counts.txt", row.names=F, sep='\t')
write.table(sp1_meta, "test_meta.txt", row.names=F, sep='\t')

Linux下运行cellphoneDB

cellphoneDB

单细胞RAN-seq分析之CellPhoneDB
cellphoneDB官网

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,719评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,337评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,887评论 0 324
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,488评论 1 266
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,313评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,284评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,672评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,346评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,644评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,700评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,457评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,316评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,706评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,261评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,648评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,859评论 2 335