商务与经济统计——抽样分布与区间估计

1. 基础概念及其定义

1.1 简单随机样本（有限总体）

从容量为 $N$ 的有限总体中抽取一个容量为n的样本，如果容量为 $n$ 的每一个可能的样本都以相等的概率被抽出，则称该样本为简单随机样本。

1.2 随机样本（无限总体）

如果从一个无限总体中抽取一个容量为 $n$ 的样本，使得下面的条件得到满足：

抽取的每个个体来自同一总体
每个个体的抽取是独立的
则称该样本是一个随机样本

1.3 抽样分布

一个样本统计量所有可能值构成的概率分布

1.4 无偏性

点估计量的一个性质，此时点估计量的数学期望等于所估总体参数的值

1.5 中心极限定理

从总体中抽取容量为 $n$ 的简单随机样本，当样本容量很大时，样本均值 $\bar{x}$ 的抽样分布近似服从正态概率分布。一般来说，当样本容量大于或者等于 $30$ 时， $\bar{x}$ 的抽样分布可用正态分布近似。

1.6 抽样方法

分层随机抽样：先将总体分成若干层，然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
整群抽样：先将总体分成若干群，然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。

1.7 区间估计

总体参数估计值的一个区间，确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于，提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。

2. 抽样分布

2.1 $\bar{x}$ 的抽样分布

样本均值 $\bar{x}$ 的所有可能值的概率分布。可用于提供样本均值 $\bar{x}$ 与总体均值 $\mu$ 的接近程度的概率信息。

数学期望
$E(\bar{x}) = \mu$
其中， $\mu$ 为总体均值
标准（误）差
$\sigma_{\bar{x}} = \sqrt{\frac{N-n}{N-1}}\left ( \frac{\sigma }{\sqrt{n}} \right ) \quad 有限总体$
$\sigma_{\bar{x}} = \frac{\sigma }{\sqrt{n}} \quad 无限总体$
当 $n/N \leqslant 0.05$ 时，采用无限总体的计算公式。样本容量越大，样本均值落在总体均值附近某一特定范围内的概率也越大。
$\bar{x}$ 抽样分布的形态
当总体服从正态分布时，在任何样本容量下 $\bar{x}$ 的抽样分布都是正态分布
当总体不服从正态分布时，根据中心极限定理来判定。

2.2 $\bar{p}$ 的抽样分布

样本比率 $\bar{p}$ 是总体比率 $p$ 的点估计，样本比率的计算公式为
$\bar{p} = \frac{x}{n}$
其中， $x$ 为样本中具有感兴趣特征的个体的数量， $n$ 代表样本容量。

$\bar{p}$ 的抽样分布是样本比率 $\bar{p}$ 的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。

数学期望
$E(\bar{p}) = p$
标准（误）差
$\sigma_{\bar{p}} = \sqrt{\frac{N-n}{N-1}}\sqrt{\frac{p(1-p)}{n}} \quad 有限总体$
$\sigma_{\bar{p}} = \sqrt{\frac{p(1-p)}{n}} \quad 无限总体$
当 $n/N \leqslant 0.05$ 时，采用无限总体的计算公式。
$\bar{p}$ 抽样分布的形态
当 $np \geqslant5$ 并且 $n(1-p) \geqslant 5$ 时， $\bar{p}$ 的抽样分布可以用正态分布近似。

2.3 $r_s$ 的抽样分布

$r_s$ 为样本秩相关系数，其计算公式为：
$r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}$
其中， $n$ 为样本中观测值的个数； $x_i$ 为对于第 $1$ 个变量的第 $i$ 观测值的秩； $y_i$ 为对于第 $2$ 个变量的第 $i$ 观测值的秩； $d_i = x_i - y_i$ 。

$r_s$ 的抽样分布

均值：
$\mu_{r_s} = 0$
标准差：
$\sigma_{r_s} = \sqrt{\frac{1}{n-1}}$
分布形式
$n \geqslant 10$ 时，近似服从正态分布。

3. 总体均值的区间估计

一个点估计量 $\pm$ 边际误差。其中，边际误差 = 标准误差乘以 $z_{\alpha /2}$ 。

3.1 $\sigma$ 已知的情形

$\bar{x} \pm z_{\alpha /2}\frac{\sigma }{\sqrt{n}} \tag{1}$
其中， $1-\alpha$ 为置信系数， $z_{\alpha /2}$ 表示标准正态概率分布上侧面积为 $\alpha /2$ 时的 $z$ 值。

常用的置信水平下的 $\alpha /2$ 值:

置信水平	$\alpha$	$z_{\alpha}$	$\alpha /2$	$z_{\alpha /2}$
90%	0.1	1.28	0.05	1.645
95%	0.05	1.645	0.025	1.960
99%	0.01	2.33	0.005	2.576

应用中需要注意若总体服从正态分布，则 $(1)$ 给出的置信区间是精确的；若总体不属于正态分布，则需要样本容量足够（一般 $n \geqslant 30$ 已足够，若总体分布大致对称，则样本容量至少为 $15$ 才能得到置信区间一个好的近似。）

3.2 $\sigma$ 未知的情形

3.2.1 $t$ 分布

一类概率分布，当总体标准差 $\sigma$ 未知而用样本标准差 $s$ 对其进行估计时，该分布用于建立总体均值的区间估计。随着自由度的增大， $t$ 分布与标准正态分布越来越相似。 $t$ 分布用于计算总体均值的区间估计，其自由度为 $n-1$ ，其中 $n$ 是样本容量。

3.2.1 总体均值的区间估计

$\bar{x} \pm t_{\alpha /2}\frac{s }{\sqrt{n}} \tag{2}$
其中， $s$ 为样本标准差， $1-\alpha$ 为置信系数， $t_{\alpha /2}$ 表示自由度为 $n-1$ 的 $t$ 的分布中，上侧面积为 $\alpha /2$ 时的 $t$ 值。

应用中需要注意若总体服从正态分布，则 $(2)$ 给出的置信区间是精确的；若总体不属于正态分布，则需要样本容量足够（一般 $n \geqslant 30$ 已足够，若总体分布大致对称，则样本容量至少为 $15$ 才能得到置信区间一个好的近似；若总体的分布是严重偏斜或者包含异常点时，需要样本容量 $\geqslant 50$ 。）

3.3 样本容量的确定

$n = \frac{(z_{\alpha /2})^2\cdot \sigma^2}{E^2}$
其中， $E$ 为希望达到的边际误差。若总体标准差 $\sigma$ 是未知的，一般可以将 $极差 /4$ 做为标准差 $\sigma$ 的粗略估计。

4. 总体比率的区间估计

3.4.1 区间估计

$\bar{p} \pm z_{\alpha /2}\sqrt{\frac{\bar{p}(1-\bar{p})}{n}}$
其中， $1-\alpha$ 为置信系数， $z_{\alpha /2}$ 表示标准正态概率分布上侧面积为 $\alpha /2$ 时的 $z$ 值。

3.4.2 样本容量

$n = \frac{(z_{\alpha /2})^2 p^*(1-p^*)}{E^2}$
其中， $p^*$ 表示 $\bar{p}$ 的计划值， $E$ 为希望达到的边际误差。

5. 两总体均值之差的区间估计

两总体均值之差的点估计量为 $\bar{x_1} - \bar{x_2}$

5.1 $\sigma_1$ 和 $\sigma_2$ 已知的情形

$\bar{x_1} - \bar{x_2}$ 的标准误差
$\sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
$\bar{x_1} - \bar{x_2}$ 的区间估计
$\bar{x_1} - \bar{x_2} \pm z_{\alpha /2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
其中， $1-\alpha$ 为置信系数。

5.2 $\sigma_1$ 和 $\sigma_2$ 未知的情形

$\bar{x_1} - \bar{x_2}$ 的标准误差
$\sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$
$\bar{x_1} - \bar{x_2}$ 的区间估计
$\bar{x_1} - \bar{x_2} \pm t_{\alpha /2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$
其中， $1-\alpha$ 为置信系数； $t$ 统计量的自由度采用如下计算公式
$df = \frac{\left ( \frac{s_1^2}{n_1}+ \frac{s_2^2}{n_2}\right )^2}{\frac{1}{n_1 - 1}\left ( \frac{s_1^2}{n_1} \right )^2 + \frac{1}{n_2 - 1}\left ( \frac{s_2^2}{n_2} \right )^2}$

5.3 匹配样本

区间估计
$\bar{d}\pm t_{\alpha /2}\frac{s_d}{\sqrt{n}}$
其中， $\bar{d}$ 为样本差值的均值， $s_d$ 为样本标准差， $t$ 分布的自由度为 $n-1$ 。

6. 两总体比例之差的区间估计

两总体比例之差的点估计量为 $\bar{p_1} - \bar{p_2}$

$\bar{p_1} - \bar{p_2}$ 的标准误差
$\sigma_{\bar{p_1} - \bar{p_2}} = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}$
$\bar{p_1} - \bar{p_2}$ 的区间估计
$\bar{p_1} - \bar{p_2} \pm z_{\alpha /2} \sqrt{\frac{\bar{p_1}(1-\bar{p_1})}{n_1} + \frac{\bar{p_2}(1-\bar{p_2})}{n_2}}$
其中， $1-\alpha$ 为置信系数；两总体比例未知时，用 $\bar{p_1} ,\bar{p_2}$ 来估计 $p_1, p_2$ 。

7. 一个总体方差的统计推断

从正态总体中任一抽取一个容量为 $n$ 的简单随机样本，则
$\frac{(n-1)s^2}{\sigma^2}$
的抽样分布服从自由度为 $n-1$ 的 $\chi^2$ 分布。
一个总体方差的区间估计
$\frac{(n-1)s^2}{\chi^2_{\alpha /2}} \leqslant \sigma^2 \leqslant \frac{(n-1)s^2}{\chi^2_{1-\alpha /2}}$
其中， $\chi^2_{\alpha}$ 表示 $\chi^2$ 分布右侧的面积或概率为 $\alpha$ 时对应的 $\chi^2$ 值， $\chi^2$ 分布的自由度为 $n-1$ ， $n$ 为样本容量。

8. 两个总体方差的统计推断

从两个方差相等的正态总体中分别抽取容量为 $n_1$ 和 $n_2$ 的两个独立的简单随机样本，则 $\frac{s_1^2}{s_2^2}$ 的抽样分布服从分子自由度为 $n_1-1$ 和分布自由度为 $n_2-1$ 的 $F$ 分布。 $s_1^2$ 为取自总体 $1$ 的容量为 $n_1$ 的随机样本的样本方差， $s_2^2$ 为取自总体 $2$ 的容量为 $n_2$ 的随机样本的样本方差。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,348评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,122评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,936评论 0赞 347
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,427评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,467评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,785评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,931评论 3赞 406
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,696评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,141评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,483评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,625评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,291评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,892评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,741评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,977评论 1赞 265
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,324评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,492评论 2赞 348