1. 基础概念及其定义
1.1 简单随机样本(有限总体)
从容量为 的有限总体中抽取一个容量为n的样本,如果容量为 的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本。
1.2 随机样本(无限总体)
如果从一个无限总体中抽取一个容量为 的样本,使得下面的条件得到满足:
- 抽取的每个个体来自同一总体
- 每个个体的抽取是独立的
则称该样本是一个随机样本
1.3 抽样分布
一个样本统计量所有可能值构成的概率分布
1.4 无偏性
点估计量的一个性质,此时点估计量的数学期望等于所估总体参数的值
1.5 中心极限定理
从总体中抽取容量为 的简单随机样本,当样本容量很大时,样本均值 的抽样分布近似服从正态概率分布。一般来说,当样本容量大于或者等于 时, 的抽样分布可用正态分布近似。
1.6 抽样方法
- 分层随机抽样:先将总体分成若干层,然后在每层中进行简单随机抽样。依赖于层内个体的同质性。
- 整群抽样:先将总体分成若干群,然后以群为单位进行简单随机抽样。依赖于每一群对整个总体的代表性。
1.7 区间估计
总体参数估计值的一个区间,确信该区间将参数值纳入其中。通常是在点估计上加减一个边际误差的值来计算区间估计。区间估计的目的在于,提供基于样本得出的点估计值与总体参数值的接近程度方面的信息。
2. 抽样分布
2.1 的抽样分布
样本均值 的所有可能值的概率分布。可用于提供样本均值 与总体均值 的接近程度的概率信息。
- 数学期望
其中, 为总体均值 - 标准(误)差
当 时,采用无限总体的计算公式。样本容量越大,样本均值落在总体均值附近某一特定范围内的概率也越大。 - 抽样分布的形态
- 当总体服从正态分布时,在任何样本容量下 的抽样分布都是正态分布
- 当总体不服从正态分布时,根据中心极限定理来判定。
2.2 的抽样分布
样本比率 是总体比率 的点估计,样本比率的计算公式为
其中, 为样本中具有感兴趣特征的个体的数量, 代表样本容量。
的抽样分布是样本比率 的所有可能值的概率分布。它可以对样本比率与总体比率的差异程度提供概率信息。
- 数学期望
- 标准(误)差
当 时,采用无限总体的计算公式。 - 抽样分布的形态
- 当 并且 时, 的抽样分布可以用正态分布近似。
2.3 的抽样分布
为样本秩相关系数,其计算公式为:
其中, 为样本中观测值的个数; 为对于第 个变量的第 观测值的秩; 为对于第 个变量的第 观测值的秩;。
的抽样分布
- 均值:
- 标准差:
- 分布形式
时,近似服从正态分布。
3. 总体均值的区间估计
一个点估计量 边际误差。其中,边际误差 = 标准误差乘以。
3.1 已知的情形
其中, 为置信系数, 表示标准正态概率分布上侧面积为 时的 值。
常用的置信水平下的 值:
置信水平 | ||||
---|---|---|---|---|
90% | 0.1 | 1.28 | 0.05 | 1.645 |
95% | 0.05 | 1.645 | 0.025 | 1.960 |
99% | 0.01 | 2.33 | 0.005 | 2.576 |
应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 已足够,若总体分布大致对称,则样本容量至少为 才能得到置信区间一个好的近似。)
3.2 未知的情形
3.2.1 分布
一类概率分布,当总体标准差 未知而用样本标准差 对其进行估计时,该分布用于建立总体均值的区间估计。随着自由度的增大, 分布与标准正态分布越来越相似。 分布用于计算总体均值的区间估计,其自由度为 ,其中 是样本容量。
3.2.1 总体均值的区间估计
其中, 为样本标准差, 为置信系数, 表示自由度为 的 的分布中,上侧面积为 时的 值。
应用中需要注意若总体服从正态分布,则 给出的置信区间是精确的;若总体不属于正态分布,则需要样本容量足够(一般 已足够,若总体分布大致对称,则样本容量至少为 才能得到置信区间一个好的近似;若总体的分布是严重偏斜或者包含异常点时,需要样本容量 。)
3.3 样本容量的确定
其中, 为希望达到的边际误差。若总体标准差 是未知的,一般可以将 做为标准差 的粗略估计。
4. 总体比率的区间估计
3.4.1 区间估计
其中, 为置信系数, 表示标准正态概率分布上侧面积为 时的 值。
3.4.2 样本容量
其中, 表示 的计划值, 为希望达到的边际误差。
5. 两总体均值之差的区间估计
两总体均值之差的点估计量为
5.1 和 已知的情形
的标准误差
的区间估计
其中, 为置信系数。
5.2 和 未知的情形
的标准误差
的区间估计
其中, 为置信系数; 统计量的自由度采用如下计算公式
5.3 匹配样本
- 区间估计
其中, 为样本差值的均值, 为样本标准差, 分布的自由度为 。
6. 两总体比例之差的区间估计
两总体比例之差的点估计量为
的标准误差
的区间估计
其中, 为置信系数;两总体比例未知时,用 来估计 。
7. 一个总体方差的统计推断
从正态总体中任一抽取一个容量为 的简单随机样本,则
的抽样分布服从自由度为 的 分布。一个总体方差的区间估计
其中, 表示 分布右侧的面积或概率为 时对应的 值, 分布的自由度为, 为样本容量。
8. 两个总体方差的统计推断
- 从两个方差相等的正态总体中分别抽取容量为 和 的两个独立的简单随机样本,则 的抽样分布服从分子自由度为 和分布自由度为 的 分布。 为取自总体 的容量为 的随机样本的样本方差, 为取自总体 的容量为 的随机样本的样本方差。