统计研究层次
- 初级统计(描述性统计):x±s,
- 中级统计(差异性分析):t检验2对象,F检验3对象,卡方检验,非参数检验
- 高级统计(关系性分析):线性回归,逻辑回归,cox回归
三种模型构建:
发现风险(看p值)---验证风险(看B系数)---预测结局(看AIC/BIC,赤池准则)
先看X1(维生素)和Y(骨质疏松)有无关系,再加上X2(年龄),X3(性别)等因素,看X1+X2+X3和Y有无关系;再加上人口学,行为学,实验指标;这个过程就是校正
唯一不同之处在于多个变量需采用赤池系数
临床预测模型的基础
- Development 模型构建(最优模型)
- Validation 模型验证:区分度、校准度、临床实用度
- Visualization 模型可视化:nomogram,量表,网站/app
临床预测模型的两个问题 诊断+预后
临床模型分级标准
临床预测模型建模人群
区分度(Discrimination)
- 是指预测模型把未来发病风险高低不同的人群准确的区分开的能力
- 反映的是把患者与非患者区分开的能力(明辨是非);区分度:定性判定
- 常用指标:AUC/C-Index、NRI、IDI (NRI-IDI用于新旧模型比较)
Logistic: AUC ROC NRI IDI
Cox:C_index ROC NRI IDI (C-index是针对整个模型的,其他都可以分时间点,如1year/3year)
1.C-index (Harrell concordance index,C statistics,C-indices, Concordance indices)
- 对于Logistic回归,就是ROC分析的AUC (Area Under Curve)
- C-Index:0.5 完全不一致
- C-Index:1.0 完全一致
- C-Index: 0.5-0.7 较低区分度
- C-Index:0.71-0.90 中等区分度
-
C-Index:>0.90 高度区分度
Cox: C_index (for all) ROC(for all & timepoint)
-- logistic model only one ROC, while Cox can several ROC
AUC指标优势劣势对比
优势 | 劣势 |
---|---|
AUC是一个大家熟悉的统计指标 | AUC是一个基于秩次的统计量 |
统计软件默认输出 | AUC关注的是区分度,对于风险预测并不重视 |
有明确的推荐范围:0.90,Outstanding;0.8-0.9, Excellent;0.7-0.8Acceptable | 新加入指标很难显著改善AUC,AUC增量的意义并不直观易理解 |
2.NRI(Net Reclassification Index,净重新分类指数)
- Logistic回归新旧模型比较只有一个NRI/IDI;COX回归针对不同时点可有多个
- AUC虽然广泛用于预测模型的区分度评价,但其为一个综合指标,其考虑了所有预测概率作为界值的一个综合判定。
- 而实际应用中,我们只会选取一个适宜的诊断切点,关心该切点下的诊断能力而非所有切点构成的AUC。
- 同时当我们比较两个模型的预测能力时,或者模型引入新的指标预测改善情况。我们则需要一个比较两个模型预测能力的指标:NRI
NRI(用于新旧模型比较时):
原理:首先将研究对象按照真实的患病情况分为两组,即患者组和非患者组,然后分别在这两个分组下,根据新、旧模型的预测分类结果(根据某个切点),整理成两个2×2表格,如下表所示:
最后,综合患者组和非患者组的结果,新模型与旧模型相比,净重新分类指数 NRI=(B1-C1)/N1+(C2-B2)/N2
若NRI>0,则为正改善:说明新模型比就模型的预测能力有所改善;若NRI<0,则为负改善,新模型预测能力下降;若NRI=0,则认为新模型没有改善。
-
我们可以通过计算Z统计量(Z检验),来判断NRI与0相比是否具有统计学显著性,统计量Z近似服从正态分布,公式如下:
三分类NRI计算同理
AUC&NRI
由此可以看出,当两个模型的AUC差异比较无统计学显著性时,提示模型的区分能力相近,但是进一步计算NRI后就会发现,新模型正确再分的能力(Reclassification)有显著提高,因此需要我们将AUC和NRI综合起来进行判断。AUC相当于综合实力。NRI相当于单项(整体比不过你,但是以某个为切点,我还是可以的)
3.IDI(Integrated Discrimination Improvement,综合判别改善指数)
- NRI主要用于在设定好的切点水平下来判断和比较新旧模型的预测能力是否有所提高,在实际临床中容易计算易于理解。
- 但NRI不足在于只考虑了切点处的改善情况,不能考虑模型的整体改善情况。
一个综合判定改善情况的指标IDI应运而生! - IDI=(Pnew, events-Pold, events)-(Pnew,non-events-Pold,non-events)
- (Pnew, events-Pold, events):患者组中,新模型预测概率的均值-旧模型预测概率的均值,表示预测概率提高的变化量。对于患者而言,预测概率越高,模型越准确,因此,该差值越大,提示新模型越好。
- (Pnew,non-events-Pold,non-events):非患者组,新模型预测概率的均值-旧模型预测概率的均值。对于非患者,预测概率越低,模型越准确,因此,差值越小则新模型越好。
IDI统计学检验:
-
可以通过Z统计量,来判断IDI与0相比是否具有统计学显著性,统计量Z近似服从正态分布,公式如下:
- 其中SEevents为Pnew,events-Pold,events的标准误,首先在患者组,计算新、旧模型对每个个体预测概率,求得概率的差值,再计算差值的标准误。同理,SEnon-events为Pnew,non-events-Pold,non-events的标准误,是在非患者组,计算新、旧模型对每个个体的预测概率,求得概率的差值,再计算差值的标准误即可。
IDI和NRI的比较:
IDI | NRI |
---|---|
两个模型在预测概率差距上的量化 | 两个模型在正确分类研究对象个数上的差距的量化 |
对于病人,预测概率的提高量;对于对照,预测概率的降低量 | 对于病人,预测概率提高,或者分级提高比例的净量 |
AUC只给出秩次,IDI有具体量化 | 对于对照,预测概率降低,或者分级降低比例的净量。 |
在不牺牲平均特异度的前提下,平均灵敏度的改善量。 | 两种方式:基于概率分类;基于概率值 |
两种定义方式:绝对IDI;相对IDI |
肯定包括NRI,有时加上IDI
校准度(Calibration)
- 是评价一个预测模型预测未来某个个体发生结局事件概率准确性的重要指标,反映模型预测风险与实际发生风险的一致程度,也称为一致性。
- 区分度:定性,你能预测出来吗?(预测出来你考试过不过)
校准度:定量,你预测出来和实际一样吗?(预测出考了多少分) - 校准度评价法:
Logistic:H-L(Hosmer-Lemeshow)
Logistic&Cox:Calibration plot
Hosmer-Lemeshow思想
- 预测出概率;
- 从小到大排序,10分位数分组;
- 计算每组实际观测数和模型预测数;
- 计算卡方值,得到P值;
- P越大,说明预测模型校准度越好,若P<0.05,则说明模型预测值与实际值存在一定的差异,校准度较差。
Calibration plot(校准图)
-
常用三种形式:(1)散点图(2)条形图(3)线图
八张图:两张ROC曲线反映区分度,两张校准曲线反映准确度,两者临床校准曲线反映临床适用度,一张nomogram,前面一张流程图
-
Del&Val都要做(基于Logistic回归)
- Del&Val都要做,Cox回归要做不同时间点
区分度和校准度
临床适用度评价(Decision Curve Analysis,DCA,决策曲线分析法)
临床预测模型临床有效性评价
- 如通过某个生物标志物预测研究对象是否患病,无论选择哪个界值,都会遇到假阳性和假阴性的可能;有时候避免假阳性受益更大,有时候则更希望避免假阴性,既然两种情况都无法避免,那就两害相权取其轻,两利相权取其重,那我们就选择对患者最有利的,也就是净受益最大的方法。这就是临床效用的问题。
- 一个病人,如果是X病,手术可延长6年寿命,如果不是X病,做手术会缩短3年寿命,那么某个患者经过模型预测有40%可能是X病,到底做不做手术呢?
决策曲线分析(Decision Curve Analysis,DCA)
训练集+验证集的运用
注意:
训练集+验证集
都要:C-index或ROC
都要:校准曲线和(或)HL
都要:临床决策曲线
Nomo:只在训练集做
所有都是基于模型计算出来的P,有P就有临床预测模型的一切!
模型可视化(Visualization);模型-量表-网站-Nomogram
在线动态nomo图:An independently validated survival nomogram for lower-grade glioma
nomo解读
临床预测模型报告规范
- 临床预测模型规范:TRIPOD
- https://www.equator-network.org/ :医学论文报告规范组织机构:EQUATOR Network(提高卫生研究质量和透明度协作网),该组织以CONSORT工作组为框架,在全球推广使用各种医字研究报告规范,提高论文质量和透明度,促进卫生研究质量提升,该网站几乎可以获得所有医学研究论文的报告规范。
交叉验证(K-Foldcross-validation)
LASSO,Least absolute shrinkage and selection operator
-
惩罚系数:Lambda(思想:要想进模型,要接受一定的惩罚)
Bootstrap(自助抽样法)
- 抽了还,还了抽,一般得抽1000次
转载:精鼎统计