山中何事?
松花酿酒,
春水煎茶。
面对日益复杂的数据,线性模型正处于一个蹙迫的境地,如大量的离散型随机变量的响应变量问题——大量的计数资料类型、重复测量资料的数据处理。面对这些离散型、非独立的数据,我们既无法直接采用限于连续型数据的线性混合模型,又不能直接运用基于独立性假定的广义线性模型,而这些实际需求催生了广义线性混合模型(generalized linear mixed models, GLMMs)。
目前GLMMs尚未普及运用,报道相关文献较为艰涩难懂,结合笔者目前工作内容,总结摸索如下。
广义
离散分布:二点分布、二项分布、Poisson分布、负二项分布
连续分布:正态分布、Beta分布、Gamma分布、卡方分布
混合效应
该模型基本形式: y = Xβ + Zu + ε
y 是因变量的观测变量,X 是协变量的设计矩阵(已知),β是未知回归系数向量(非随机),为固定效应。Z 是已知矩阵,u 是随机效应向量,ε 是随机误差向量,u 与 ε 相互独立,无法观测。
不失一般性,总假定 u 和 ε 的期望均为 0,事实上,若即 μ = E(u),注意到 ZU= Zμ + Z(U - μ),故可将 u 中心化,而将其期望归并到固定效应部分。
该模型最大的优势在于可将某些分组变量作为随机效应进行模型拟合。将全部分组因素作为固定效应进行模型拟合是,可能造成模型的过离散(类似于广义线性模型),而将部分固定效应提取出来作为随机效应再进行拟合,往往可以消除过离散,从而得到更加准确的参数估计。需要注意的是,固定效应和随机效应并不是随意界定的,要根据试验设计的具体内容,有理有据地进行效应分类。
在运用上,GLMMs可通过SPSS、R以及SAS中的GLIMMIX过程实现。SPSS中的GLIMMIX过程人机交互界面十分友好,但时长面临卡死的风险,且运算时间过长,不太适合较大量较复杂数据的处理,笔者尝试采用的是SAS中的“The Glimmix”过程实现建模。
SAS中的实现
打开数据
proc import datafile = "F:\Toxicology Institute\MARCHS\XXX.sav" out= work1;
run;
相应变量分布检验
proc univariate data=work1;
var y;
histogram y / gamma;
run;
GLMMs 中离散变量可为binomial、binary、Poisson、negative binomial 分布,连续变量可为Gaussian、beta、gamma分布(卡方分布为gamma分布的一个特例)。连续变量默认Gaussian分布,离散变量默认为binary分布,连接函数默认为logit。
The Glimmix 过程
离散变量
proc glimmix data=work1;
t = year-2012;
class year smoking(ref=first) friedfood(ref=first) bakedfood(ref=first) alcoholgroup(ref=first) greentea(ref=first) cola(ref=first) coffee(ref=first) milktea(ref=first);
model y=year age abs bmi smoking friedfood bakedfood alcoholgroup cola coffee milktea greentea /s dist=binary cl ddfm=kr;
random intercept t / subject=ID;
run;
该数据来自一个,自2013年起随访三年的,队列研究,我们认为存在的随机效应来自重复测量 t 与个体差异 ID。值得注意的是,在不存在随机效应时,可采用广义线性模型(GLM)拟合,如过随机效应仅来自重复测量,亦可采用广义线性模型(GLM),即采用SAS中的 The Glm 过程(利用 repeat 语句)。
上述语句中,值得注意的,“class”标注的为分组变量,“model”中的均为考虑到的固定效应,“dist”为分布,“cl”为显示固定效应的解,“ddfm”为自由度计算方法,“random”中为截距、重复测量 t 以及个体差异 ID。
模型的拟合统计量一般用 “广义卡方/自由度”与“1”的比较。
还是须尊崇多变量分析的逐步纳入,向后消去等等纳入排除变量标准,调整模型中的变量,注意样本量少是变量数的十倍。
至此,对GLMMs模型有了一个初步了解,在随机效应的设计上与建模的选项上尚有空间。不能忘记的是,建模结果的生物学意义。人群资料研究的论证强度还是基于科学的生物学解释的。
参考文献
· SAS/STAT 14.1 User's Guide
· 《SAS语言基础于高级编程技术》
· 《线性和广义线性混合模型及其统计诊断》
· 《发现数据之美》