第6章 估计
6.1总体与样本的关系
参考总体 正在研究的可能的所有抽样单元的集合(或者我们希望将研究成果推广到的所有抽样单元的集合)。
样本 从参考总体中抽取的有限数量的样本单元集合。
随机样本 参考总体中的每一个样本具有相等的机会被选中,这种方式所得的样本是随机样本。这实际上是一个简单随机样本;一个随机样本可以允许选择概率不相等。然而,本文中,我们将使用“随机样本”一词来指代简单随机样本。
6.2 随机数字表
假设我们有一个包含了5000名患有罕见癌症的儿童的登记册。我们如何从这份登记册中抽取100个儿童的随机样本?
随机数字 每个数字被选中的概率是1/10;连续的数字是相互独立的。
教材附表4包含了一组1000个随机数字。为选择100个儿童的随机样本,
1.附表4的10行开始并取之后5组连续随机数字:
。
2.使用每组5位数字的前4位,得到
。
3.按照字母顺序、ID顺序或其他预先指定的顺序对原先的5000名儿童列表进行排序。
4.根据步骤2中获得的数字从列表中选择儿童;例如,选择的第一个儿童将是列表中的第3944个;第二个儿童将是列表中的第137个,依此类推。如果步骤2中的一些数字是零、大于5000,或者是之前已经使用过的数字的重复项,则忽略它们,并继续使用下一组5个数字。
6.3随机临床试验
随机数字的在随机化临床试验中有重要用途。患者被随机分配到治疗组,使用的随机数字可以来自随机数表或通过计算机生成。随机化的主要原理是它确保了治疗组在基线特征方面接近相似。
6.3.1 随机化临床试验研究设计技术
1.区组块设计(blocking) 每 个病人分成相等数量的分配到每个治疗组中。这样做的目的是确保在短期内(即,每
个病人)相等数量的病人分配到每个治疗组,因为研究方案有时会随时间改变。
2.分层(stratification)盲法的目的是避免患者或医生在结果评估中产生偏差。在双盲临床试验中,患者和医生都不知道治疗分配。在单盲临床试验中,医生或患者中的一方知道治疗分配,但不是双方都知道。这通常在进行双盲研究要么不可能,要么不切实际的情况下使用。
现在临床研究的金标准是随机化双盲安慰剂对照临床试验。通过安慰剂对照,我们的意思是一个治疗组接受的是有效治疗,而另一个治疗组接受的是安慰剂——一种看起来与有效治疗相似,但实际上没有生物学效果的治疗(例如,糖丸)。在某些情况下,使用安慰剂对照是不道德的(例如,当已经存在针对危及生命疾病的标准治疗方法时)。
6.4 抽样分布
一个统计量(例如)的所有可能值的分布,这些值是通过对参考总体中所有可能抽取的随机样本进行计算得到的。
6.5 一个分布中均值的估计
样本均值用于估计分布的总体均值。为什么样本均值是总体均值的好的估计量?
1.无偏性(即)。
2.它在所有无偏估计量中具有最小的方差。
所谓无偏估计量,是指从参考总体中可以选取的所有可能的个样本中计算出的样本均值的平均值等于总体均值。
6.6 均值的标准误
均值的标准误反应了从参考总体中重复抽样大小为的样本的均值的变异性。均值的标准误与标准差不同,标准差反应了单个样本点的变异。它按照
算出,其中
=标准误差,
样本量。在
未知的情况下,标准误按照
估计。
例如:假设我们对20位30-49岁男性检测血压。舒张压的是
。我们对
的最佳估计是78.5。这个估计的标准误是
。均值(2.3)的标准误是远远小于标准差(10.3)。
标准误依赖
1.=单个样本点的变异度。
2.=样本量
对不同样本量舒张压均值的标准误给出在下表中:
6.7 中心极限定理
如果某类样本点的潜在分布是正态分布,那么可以证明。如果我们的分布不是正态分布,那该怎么办?对于
足够大,即使某类观测值的分布不服从正态分布,也近似服从正态分布,记为
。这对于许多假设检验和置信区间方法的有效性至关重要,这些方法假设在从参考总体中重复抽取大小为
的样本时,
近似服从正态分布。根据中心极限定理,即使原先分布不是正态分布,只要
足够大,这一点也将成立。
6.8 均值的区间估计
我们根据先前的数据得出的最佳估计值为 78.5 毫米汞柱(mm Hg)。然而,我们对
估计存在不确定性,这反映在标准误差中。
的置信区间是一组可能的
值的范围。在抽样数据基础之上对
的95%置信区间通过下式得出
此处自由度()为
的
分布的
的百分位数。
分布是按自由度(
)为索引的一组分布族。
分布的百分位数教材附表5已给出,也可以在诸如Excel或MINITAB等计算机软件包中获得(参见附录)。“95%置信区间”这个术语意味着,以这种方式从参考总体(即30至49岁的男性)中重复抽取大小为
的样本所构建的置信区间(CI)中,有95%的区间将包含真实的均值(
)。
例如:对30-49岁男性舒张压真实均值计算95%CI。对
95%CI通过下式得到
6.8.1 用于决策目的的置信区间
假设我们正在研究的社区靠近一条主要高速公路,我们猜测这个社区的血压水平是否相对于全国平均水平有所提高。假设根据先前全国卫生调查的基础上,全国65岁以上的人平均收缩压为140.0mmHg。我们抽取一个样本数量为50人并且算出,
。我们能否得出结论,我们社区65岁以上人群的平均收缩压更高?我们将对
构建一个95%的置信区间(CI)来帮助我们做出决策。我们有
对的95%CI
从Excel我们可得。由于这个区间不包括全国平均水平140mmHg,我们得出这样的结论,这个社区65岁以上人群收缩压的真实均值高于全国平均水平。
通常,一个
6.8.2 影响置信区间长度的因素
1.:置信水平;当
越小,CI越长
2.:当S
长度
3.:当n
,长度
此外,假设样本量非常大(>200),可以通过下列公式近似得到100%置信区间CI:
并且对样本量≤200,假设
已知可以通过将
替换为
来使用这个区间。
6.9 一个分布的方差估计
我们何时对估计感兴趣?在可重复性研究中,
的估计通常是主要关注点。假设我们正计划进行一项关于α-生育酚(维生素E)对心脏病作用的研究。我们想要评估血清
-生育酚水平的可重复性,因为我们正在建立一个新的试验来执行这项测试。
我们招募了15名志愿者,他们分别在相隔一周的时间提供两次血液样本。我们计算,其中
表示第
个受试者的第1次样本,
表示第i个受试者的第2次样本,并得出均值差
为0,标准差
为0.25。在文献中,我们发现建立在明显更大的样本为基础的类似试验,标准差
=0.20。我们能说我们试验的重复性比文献试验的小吗?我们需要对
获得一个95%的置信区间。我们将在
基础之上来构建这个区间,其中
作为
的点估计。
的95%置信区间由以下区间得出:
其中表示具有n−1个自由度的卡方分布的第
百分位数。
卡方分布是一类由参数(称为自由度,或简称
)索引的分布族。具有
个自由度的卡方分布的第
百分位数用
表示,并在教材附表6中给出。我们也能从Excel或者MINITAB得到卡方分布的百分位数(参见附录)。
例如:维生素E重复性研究计算95%CI。例子:计算维生素E重复性研究中
的95%置信区间。由于
=15,
=0.25,95%置信区间由以下公式得出:
对95%CI
这个区间包括了0.20,表明我们试验的重复性与文献中的试验相当。
6.10 二项分布的估计
6.10.1 大样本方法
一些研究认为,接触麻醉气体与乳腺癌发病率之间存在关联。为了检验这种关联,一项研究在年龄为30-49岁的10000名女性手术室护士中展开。假设在这个年龄段的普通人群中,乳腺癌5年的风险为=0.005。我们发现10000女性手术室护士中,有60名女性在5年内患病。这是否显著超过了建立在全国发病率为基础之上的预期风险?我们对风险的最佳估计值是
=60/10,000=0.006。这比全国平均水平高出了20%。这个例子中
30-49岁女性手术室护士的真实发病率,这是未知的。
40-59岁女性在普通人群中的发病率。
的估计
我们将用估计
。我们需要获得建立在
基础之上的
的95%CI。建立在中心极限定理基础之上,
近似的95%CI由下列区间给出:
我们只有在(这是二项分布的正态近似有效的条件)时才会使用这个区间。
在这个例子中,的95%CI由下式给出:
由于这个区间包含,我们将得出结论:在女性手术室护士中,乳腺癌的风险没有显著增加。就这个研究设计而言,一个更完善的研究仍然需要建立一个以未暴露护士为对照组(如不在手术室工作的女性普通值班护士)。
6.10.2 小样本方法
假设药物红霉素可以预防孕晚期的感染,从而预防低出生体重的分娩。为比较红霉素(E)与安慰剂(P)而建一个配对研究。根据年龄、产次(即孩子的数量)、种族、吸烟情况和流产次数对患者进行匹配。形成了50对匹配的妇女。匹配对中的一名妇女随机接受红霉素(E),而另一名妇女接受安慰剂(P)。结果如下:
此处代表低出生体重分娩(即
88盎司)而
代表正常体重分娩(即>88盎司)。因此,有2对(
)组合,换句话说,对于2对匹配的妇女,接受红霉素治疗的妇女生下了低出生体重的婴儿,而接受安慰剂治疗的妇女生下了正常出生体重的婴儿,6对(-,+)组合...等等。
我们如何比较E治疗(红霉素)与P治疗(安慰剂)在预防低出生体重分娩方面的效果?我们将关注不一致的配对(即,对治疗有不同反应的妇女配对)。如果E和P的疗效相同,那么(+,-)配对的数量应该与(-,+)配对的数量大致相同。换句话说, = 不一致配对中为(+,-)的比例应该是1/2。在这个案例中,有8对(2 + 6)不一致的配对,其中2对是(+,-)配对。因此,我们对
的最佳估计值是
=2/8=0.25。我们也希望计算
的95%置信区间。由于
=8×0.25×(1−0.25)=1.5(其中
是配对数量,
是成功的概率,
),这个值小于5,我们不能使用大样本方法。相反,我们需要计算
的精确二项式置信区间。
要获得精确的二项式置信区间需要使用计算机或者使用列线图,比如教材附表7中所给的列线图。表7a和表7b分别提供了的精确95%和99%置信区间。要使用这些列线图,
如果,
1.在下面的水平轴上找到。
2.画一条垂直线,并记录与相应样本量为的线的交点。
3.对于每个点,画一条水平线到左侧的垂直刻度。较低的值是,较高的值是
。
如果>0.5,
1.在上方的水平轴上找到。
2.同第一列中的步骤2。
3.对于每个点,画一条水平线到右侧的垂直刻度。较高的值是,较低的值是
。
在这个例子中,我们用附表7a,其中=8且
=2/8=0.25。从左侧垂直轴获得
的精确95%置信区间是(0.03, 0.65)。因为这个区间包括了0.50,我们得出结论E和P是等效的;也就是说,红霉素并不比安慰剂更有效地预防低出生体重的分娩。
6.11 Poisson分布的估计
假设我们分析例4.38(教材,第4章)中的数据。在这个例子中,我们描述了德克萨斯州和密歇根州两座工厂的161名白人男性员工的癌症死亡率情况。这些员工在1940年至1975年期间接触过二溴乙烷(EDB)。观察到7例因癌症导致的死亡,而根据美国白人男性的癌症死亡率,预期的死亡人数仅为5.8例。观察到的病例数是否过多?
我们通过计算来回答这个问题,其中
表示观察到的癌症死亡人数,假设其服从均值为
的泊松分布。在这个假设之下,计算得到的概率为0.36,因此我们得出结论:该群体中的癌症死亡人数并未过多。
解决这个问题的另一种方法是根据观察到的死亡人数()计算
的95% 置信区间(CI)。为了得到这个CI,我们通常会使用以表8(见教材附录)为基础的精确方法。我们查找
的行,发现
的95% CI为(2.81,14.42)。由于这个区间包括了5.8,我们可以再次得出结论:该群体中的观察到的死亡人数并未过多。我们还可以得到标准化死亡率(SMR)的相应95% CI,计算公式为2.81/5.8和14.42/5.8,即(0.48,2.49)。SMR是(暴露人群的死亡率)/(一般人群的死亡率)的指标。由于SMR的95% CI包括了1,这再次表明这些工厂的工人中没有额外的癌症死亡风险。
6.12 单侧置信限
假设我们提出这样一个假说:麻醉气体对乳腺癌的发病率只是可能有害而无保护作用。对乳腺癌发病率的CI的形式,我们不是要,可能是
。也就是说,暴露于麻醉气体的护士中乳腺癌概率的最小合理值是多少?这被称为上侧单侧置信区间。这个置信区间可由下式算出:
在这个例子中,假设我们根据6.10.1章节,我们取。置信区间是
因此,是95%上侧CI。这个区间包括
并且我们再次得出结论:手术室护士女性之中,乳腺癌的发病率升高是不明显的。
类似地,下侧单侧CI是形式的区间。
这可能在出生体重的例子(第6.10.2节)中有用,如果这个例子中红霉素被认为仅仅可能具有保护作用。那这个区间可以通过下式算出:
假设在出生体重的例子中实际上有100对不一致的配对,而不是8对,这将使我们能够使用正态近似来处理二项分布。在这个例子中,,那区间应是
那么,是
的下侧95%CI,而且由于这个区间不包括
,我们将得出结论:红霉素对低出生体重分娩有保护作用。
类似的方法可用于对其他参数如正态分布的均值得到单侧置信限。