伯克松悖论
医学统计中的一种偏差
伯克松悖论是医学统计中的一种偏差。当不同个体被纳入研究样本的机会不同时,研究样本中的两个变量 X 和 Y 表现出统计相关,而总体中 X 和 Y 却不存在这种相关性。这一现象便是伯克松悖论。
伯克森悖论是美国医生和统计学家约瑟夫·伯克森在 1946 年提出的一个问题。他研究了一个医院中患有糖尿病的病人和患有胆囊炎的病人,结果发现患有糖尿病的人群中,同时患胆囊炎人数较少;而没有糖尿病的人群中,患胆囊炎的人数比例较高。这似乎说明患有糖尿病可以保护病人不受到胆囊炎的折磨,但是从医学上讲无法证明糖尿病能对胆囊炎起到任何保护作用。他将这个研究写成了论文《用四格表分析医院数据的局限性》,并发表在杂志《生物学公报》上,这个问题就称为伯克森悖论。
伯克森悖论产生的最主要原因是:文章中统计的患者都是医院的病人,从而忽略了那些没有住院的人。
分析
为了简化起见,我们假设这个医院只治疗两种疾病:糖尿病和胆囊炎。然后画一个平面直角坐标系:横坐标表示他患有糖尿病的严重程度,纵轴表示患有胆囊炎的严重程度,再把每一个人按照两种疾病的轻重画在坐标系中。
伯克森悖论
如果我们对全体人群进行统计,就会发现糖尿病和胆囊炎并没有相关性。但是如果只对医院中的患者进行统计,就会出问题。如果病人的糖尿病或者胆囊炎问题比较轻,病人就不需要住院,所以也不会被统计到。来到医院的病人要么是糖尿病,要么是胆囊炎,要么二者兼有。所以,我们需要把图像左下方的点都去掉,他们不在我们统计的范围内,我们只会统计到这条线右上方的点。这回糖尿病和胆囊炎就表现出负相关了。不患有糖尿病的人,更有可能患有胆囊炎,而患有糖尿病的人,胆囊炎的比例就会下降了。
可见伯克森悖论是一种统计偏差,因为我们忽略了身体健康而没有入院的人,只在医院的病人中进行统计,这些病人一定患有这样或者那样的疾病。所以,如果患者没有糖尿病,那么就一定患有其他疾病,比如胆囊炎,这就形成了糖尿病与胆囊炎负相关的假象。