商务与经济统计——抽样分布与区间估计

1. 基础概念及其定义

1.1 简单随机样本(有限总体)

从容量为 N 的有限总体中抽取一个容量为n的样本,如果容量为 n 的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。

1.2 随机样本(无限总体)

如果从一个无限总体中抽取一个容量为 n 的样本,使得下面的条件得到满足:

  1. 抽取的每个个体来自同一总体
  2. 每个个体的抽取是独立的
    则称该样本是一个随机样本

1.3 抽样分布

一个样本统计量所有可能值构成的概率分布

1.4 无偏性

点估计量的一个性质,此时点估计量的数学期望等于所估总体参数的值

1.5 中心极限定理

从总体中抽取容量为 n 的简单随机样本,当样本容量很大时,样本均值 \bar{x} 的抽样分布近似服从正态概率分布。一般来说,当样本容量大于或者等于 30 时, \bar{x} 的抽样分布可用正态分布近似。

1.6 抽样方法

  • 分层随机抽样:先将总体分成若干层,然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
  • 整群抽样:先将总体分成若干群,然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。

1.7 区间估计

总体参数估计值的一个区间,确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于,提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。

2. 抽样分布

2.1 \bar{x} 的抽样分布

样本均值 \bar{x} 的所有可能值的概率分布。可用于提供样本均值 \bar{x} 与总体均值 \mu 的接近程度的概率信息。

  • 数学期望
    E(\bar{x}) = \mu
    其中,\mu 为总体均值
  • 标准(误)差
    \sigma_{\bar{x}} = \sqrt{\frac{N-n}{N-1}}\left ( \frac{\sigma }{\sqrt{n}} \right ) \quad 有限总体
    \sigma_{\bar{x}} = \frac{\sigma }{\sqrt{n}} \quad 无限总体
    n/N \leqslant 0.05 时,采用无限总体的计算公式。样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。
  • \bar{x} 抽样分布的形态
  • 当总体服从正态分布时,在任何样本容量下 \bar{x} 的抽样分布都是正态分布
  • 当总体不服从正态分布时,根据中心极限定理来判定。

2.2 \bar{p} 的抽样分布

样本比率 \bar{p} 是总体比率 p 的点估计,样本比率的计算公式为
\bar{p} = \frac{x}{n}
其中,x 为样本中具有感兴趣特征的个体的数量,n 代表样本容量。

\bar{p} 的抽样分布是样本比率\bar{p} 的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。

  • 数学期望
    E(\bar{p}) = p
  • 标准(误)差
    \sigma_{\bar{p}} = \sqrt{\frac{N-n}{N-1}}\sqrt{\frac{p(1-p)}{n}} \quad 有限总体
    \sigma_{\bar{p}} = \sqrt{\frac{p(1-p)}{n}} \quad 无限总体
    n/N \leqslant 0.05 时,采用无限总体的计算公式。
  • \bar{p} 抽样分布的形态
  • np \geqslant5 并且 n(1-p) \geqslant 5时,\bar{p} 的抽样分布可以用正态分布近似。

2.3 r_s 的抽样分布

r_s 为样本秩相关系数,其计算公式为:
r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}
其中,n 为样本中观测值的个数;x_i 为对于第 1 个变量的第 i 观测值的秩;y_i 为对于第 2 个变量的第 i 观测值的秩;d_i = x_i - y_i

r_s 的抽样分布

  • 均值:
    \mu_{r_s} = 0
  • 标准差:
    \sigma_{r_s} = \sqrt{\frac{1}{n-1}}
  • 分布形式
    n \geqslant 10 时,近似服从正态分布。

3. 总体均值的区间估计

一个点估计量 \pm 边际误差。其中,边际误差 = 标准误差乘以z_{\alpha /2}

3.1 \sigma 已知的情形

\bar{x} \pm z_{\alpha /2}\frac{\sigma }{\sqrt{n}} \tag{1}
其中,1-\alpha 为置信系数,z_{\alpha /2} 表示标准正态概率分布上侧面积为 \alpha /2 时的 z 值。

常用的置信水平下的 \alpha /2 值:

置信水平 \alpha z_{\alpha} \alpha /2 z_{\alpha /2}
90% 0.1 1.28 0.05 1.645
95% 0.05 1.645 0.025 1.960
99% 0.01 2.33 0.005 2.576

应用中需要注意若总体服从正态分布,则 (1) 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 n \geqslant 30 已足够,若总体分布大致对称,则样本容量至少为 15 才能得到置信区间一个好的近似。)

3.2 \sigma 未知的情形

3.2.1 t 分布

一类概率分布,当总体标准差 \sigma 未知而用样本标准差 s 对其进行估计时,该分布用于建立总体均值的区间估计。随着自由度的增大,t 分布与标准正态分布越来越相似。t 分布用于计算总体均值的区间估计,其自由度为 n-1,其中 n 是样本容量。

3.2.1 总体均值的区间估计

\bar{x} \pm t_{\alpha /2}\frac{s }{\sqrt{n}} \tag{2}
其中,s 为样本标准差,1-\alpha 为置信系数,t_{\alpha /2} 表示自由度为 n-1t 的分布中,上侧面积为 \alpha /2 时的 t 值。

应用中需要注意若总体服从正态分布,则 (2) 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 n \geqslant 30 已足够,若总体分布大致对称,则样本容量至少为 15 才能得到置信区间一个好的近似;若总体的分布是严重偏斜或者包含异常点时,需要样本容量 \geqslant 50。)

3.3 样本容量的确定

n = \frac{(z_{\alpha /2})^2\cdot \sigma^2}{E^2}
其中, E 为希望达到的边际误差。若总体标准差 \sigma 是未知的,一般可以将 极差 /4 做为标准差 \sigma 的粗略估计。

4. 总体比率的区间估计

3.4.1 区间估计

\bar{p} \pm z_{\alpha /2}\sqrt{\frac{\bar{p}(1-\bar{p})}{n}}
其中,1-\alpha 为置信系数,z_{\alpha /2} 表示标准正态概率分布上侧面积为 \alpha /2 时的 z 值。

3.4.2 样本容量

n = \frac{(z_{\alpha /2})^2 p^*(1-p^*)}{E^2}
其中,p^* 表示 \bar{p} 的计划值, E 为希望达到的边际误差。

5. 两总体均值之差的区间估计

两总体均值之差的点估计量为 \bar{x_1} - \bar{x_2}

5.1 \sigma_1\sigma_2 已知的情形

  • \bar{x_1} - \bar{x_2} 的标准误差
    \sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}

  • \bar{x_1} - \bar{x_2} 的区间估计
    \bar{x_1} - \bar{x_2} \pm z_{\alpha /2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}
    其中,1-\alpha 为置信系数。

5.2 \sigma_1\sigma_2 未知的情形

  • \bar{x_1} - \bar{x_2} 的标准误差
    \sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}

  • \bar{x_1} - \bar{x_2} 的区间估计
    \bar{x_1} - \bar{x_2} \pm t_{\alpha /2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}
    其中,1-\alpha 为置信系数;t 统计量的自由度采用如下计算公式
    df = \frac{\left ( \frac{s_1^2}{n_1}+ \frac{s_2^2}{n_2}\right )^2}{\frac{1}{n_1 - 1}\left ( \frac{s_1^2}{n_1} \right )^2 + \frac{1}{n_2 - 1}\left ( \frac{s_2^2}{n_2} \right )^2}

5.3 匹配样本

  • 区间估计
    \bar{d}\pm t_{\alpha /2}\frac{s_d}{\sqrt{n}}
    其中,\bar{d} 为样本差值的均值,s_d 为样本标准差,t 分布的自由度为 n-1

6. 两总体比例之差的区间估计

两总体比例之差的点估计量为 \bar{p_1} - \bar{p_2}

  • \bar{p_1} - \bar{p_2} 的标准误差
    \sigma_{\bar{p_1} - \bar{p_2}} = \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}

  • \bar{p_1} - \bar{p_2} 的区间估计
    \bar{p_1} - \bar{p_2} \pm z_{\alpha /2} \sqrt{\frac{\bar{p_1}(1-\bar{p_1})}{n_1} + \frac{\bar{p_2}(1-\bar{p_2})}{n_2}}
    其中,1-\alpha 为置信系数;两总体比例未知时,用 \bar{p_1} ,\bar{p_2}来估计 p_1, p_2

7. 一个总体方差的统计推断

  • 从正态总体中任一抽取一个容量为 n 的简单随机样本,则
    \frac{(n-1)s^2}{\sigma^2}
    的抽样分布服从自由度为 n-1\chi^2 分布。

  • 一个总体方差的区间估计
    \frac{(n-1)s^2}{\chi^2_{\alpha /2}} \leqslant \sigma^2 \leqslant \frac{(n-1)s^2}{\chi^2_{1-\alpha /2}}
    其中,\chi^2_{\alpha} 表示 \chi^2 分布右侧的面积或概率为 \alpha 时对应的 \chi^2 值,\chi^2 分布的自由度为n-1n 为样本容量。

8. 两个总体方差的统计推断

  • 从两个方差相等的正态总体中分别抽取容量为 n_1n_2 的两个独立的简单随机样本,则 \frac{s_1^2}{s_2^2}的抽样分布服从分子自由度为 n_1-1 和分布自由度为 n_2-1F 分布。s_1^2 为取自总体 1 的容量为 n_1 的随机样本的样本方差,s_2^2 为取自总体 2 的容量为 n_2 的随机样本的样本方差。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,348评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,122评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,936评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,427评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,467评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,785评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,931评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,696评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,141评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,483评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,625评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,291评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,892评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,324评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,492评论 2 348

推荐阅读更多精彩内容