先说个通俗的例子
邻居家有个小明,小明读了研究生和小明没有读研究生,他的收入会差多少?可是小明已经读了研究生,我怎么才能估计出他要是不读研究生,他的收入会是多少呢?
于是,我们引入“倾向得分匹配”这样一种研究方法。这种方法能让我们从一大堆没有参加培训的人群中(也就是我们的总体样本的一个子集),对每个人读研究生的概率进行估计,然后选出和小明具有非常相似的去读研究生的概率,可是没有去读的同学小刚——作为小明的对照,然后再来看他们的区别。当样本中的每个研究生‘小明’都找到了匹配的非研究生‘小刚’,我们便能对这两组样本进行比较研究了。
propensity score原理
一种统计方法,即propensity score (PS)倾向指数。在统计分析中,是一种无偏估计的方法。
三种倾向分数的应用方法:匹配法( matching )、 分层法( stratification or subclassification)以及回归调整法( regression adjustment )。其中,匹配法和分层法是在观察研究中长期被用于消除选择性偏差( selection bias)的有效方法。
匹配法是从控制组中挑选出个体以匹配处理组被试的方法。从处理组逐次挑选被试,在控制组中寻找与此被试的倾向分数最为接近的全部被试,再随机从抽取出的全部被试中抽取一个或多个作为处理组被试的对照被试。这种方法常用于处理组被试数量较少而控制组被试数量较大的情况。
分层法是将被试按照倾向分数的一定标准区分为若干层,在不同层次的倾向分数上,均衡其他特征变量从而实现处理组和控制组之间的比较。研究发现,采用五等分的分层法可以有效的消除倾向分数模型中所有特征变量95%的偏差。
回归调整法是将倾向分数作为一个协变量,引入回归方程,再来探讨分组变量与因变量之间的关系。
小明的例子用的就是匹配法,下面再来研究一下倾向评分匹配。
倾向评分匹配(Propensity Score Matching,简称PSM)是一种统计学方法,用于处理观察研究的数据。在观察研究中,由于种种原因,数据偏差(bias)和混杂变量(confounding variable)较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较。
以公共卫生学为例,假设研究问题是吸烟对于大众健康的影响,研究人员常常得到的数据是观察研究数据,而不是随机对照实验数据(Randomized Controlled Tiral data),因为吸烟者的行为和结果,以及不吸烟者的行为和结果,是很容易观察到的。但如果要进行随即对照实验,招收大量被试,然后随机分配到吸烟组和不吸烟组,这种实验设计不太容易实现,也并不符合科研伦理。这种情况下观察研究是最合适的研究方法。但是面对最容易获得的观察研究数据,如果不加调整,很容易获得错误的结论,比如拿吸烟组健康状况最好的一些人和不吸烟组健康状况最不好的一些人作对比,得出吸烟对于健康并无负面影响的结论。从统计学角度分析原因,这是因为观察研究并未采用随机分组的方法,无法基于大数定理的作用,在实验组和对照组之间削弱混杂变量的影响,很容易产生系统性的偏差。倾向评分匹配就是用来解决这个问题,消除组别之间的干扰因素。
适用情形
倾向评分匹配法适用于两类情形。 第一,在观察研究中,对照组与实验组中可直接比较的个体数量很少。在这种情形下,实验组和对照组的交集很小,比如治疗组健康状况最好的10%人群与非治疗组健康状况最差的10%人群是相似的,如果将这两个重合的子集进行比较,就会得出非常偏倚的结论。 第二,由于衡量个体特征的参数很多,所以想从对照组中选出一个跟实验组在各项参数上都相同或相近的子集作对比变得非常困难。在一般的匹配方法中,我们只需要控制一两个变量(如年龄、性别等)即可,就可以很容易从对照组中选出一个拥有相同特征的子集,以便与实验组进行对比。但是在某型情形下,衡量个体特征的变量会非常多,这时想选出一个理想的子集变得非常困难。经常出现的情形是,控制了某些变量,但是在其他变量上差异很大,以至于无法将实验组和对照组进行比较。
倾向评分匹配通过使用逻辑回归模型来决定评分。