来源:Levine ME, Lu AT, Quach A, Chen BH, Assimes TL, Bandinelli S, Hou L, Baccarelli AA, Stewart JD, Li Y, Whitsel EA, Wilson JG, Reiner AP, et al. An epigenetic biomarker of aging for lifespan and healthspan. Aging (Albany NY). 2018; 10:573-591. https://doi.org/10.18632/aging.101414
本文主要介绍PhenoAge的详细构建步骤。
1. 所用数据介绍
The third National Health and Nutrition Examination Survey (NHANES),
the Invecchiare in Chianti (InCHIANTI) study
2. 构建步骤
两步法:
2.1 Estimating phenotypic age from clinical biomarkers
作者用一些临床的生物标志物创建了一个描述表型年龄的指标。
在这一步的模型训练中,用到了NHANES III这个数据集,它包括9926个参与者,记录了他们在超过23年里的死亡记录情况,并且有完整的生物标志物结果。
2.1.1 筛选变量
所用的模型为Cox penalized regression model,因变量Y为死亡风险(the hazard of mortality),自变量X为42种临床指标和实际年龄Age。我理解的公式如下:
因为用的是penalized regression,所以该算法最后自动选择组合了9种biomarker和Age作为最有价值的变量组合。
2.1.2 估计表型年龄(phenotypic age)
上一步找到了对预测死亡风险最有价值的变量组合(9种biomarker和age),但是到目前还无法给出phenotypic age,因为上面公式的Y(左边部分)是死亡风险,所以还需要进一步处理。
作者提出了一个概念:表示具有特征(10种指标)的个体在120个月内死亡的概率。作者假设服从Gompertz distribution,所以利用Gompertz regression可以拟合得到下面公式中的b(10个变量的系数)和gamma值。具体值文章中也列出来了。
同时表示年龄为的个体在120个月内死亡的概率,作者假设服从Gompertz 分布,因此同样基于Gompertz回归可以拟合得到下面公式中的未知系数值如b1, b0, gamma。
基于,也就是,该公式左边项的gamma和b的值都已在上一步拟合得到,将其代入并经过转换就可以获得如下对Age的表达式,作者认为这个公式就是最终的PhenotypicAge的表达式,如下:
所以这个表型年龄的计算是基于样本9项biomarker和实际年龄得到的。
随后作者用包括6209个参与者的NHANES IV数据集用于验证上述模型,结果表明在验证集中,预测的表型年龄与实际年龄的相关系数达到0.94,并且表型年龄每增长一年,该个体的死亡率就增加9%。
2.2 PhenoAge: an epigenetic biomarker of aging.
作者选择InCHIANTI这个数据集来训练PhenoAge, InCHIANTI包含456个试验者相隔9年2个时间点的检测数据。有较大的年龄分布20-100。
算法:ElasticNet regression
因变量Y: phenotypic age (来自上一步模型的结果)
自变量X: 20169个同时出现在27k, 450k 和EPIC三种芯片上的位点的甲基化值。
经过训练,ENet算法自动选择保留了513个CpG位点,PhenoAge的计算公式如下,作者在附件也提供了各项系数的值包括截距:
上面这个公式输出的结果就是DNAm PhenoAge,作者用它往下做了很多的分析。
作者提供了不同组织中DNAm PhenoAge和chronological age的相关系数和散点图,如下:
以上就是DNAm PhenoAge构建的全过程,下面我有选择地摘录一些文章中的其它内容列出:
作者将DNAm PhenoAge, Horvath DNAm Age, Hannum DNAm Age, 和Chronological Age一同放入Cox模型,发现Horvath Age和Hanum Age的作用统计学不显著, DNAm PhenoAge显著正相关,但是Chronological Age的Hazard Ratio更高,且统计更显著。
PhenoAge 的预测可以利用这个工具快速完成(GitHub - yiluyucheng/dnaMethyAge: Predict epigenetic age from DNA methylation data),只需要提供样本的beta value。
最后欢迎对这个模型、文章感兴趣的朋友与我交流(wangyucheng511@gmail.com)
注:本人。