数理统计的工作是从总体 X 中抽取样本,对总体 X 的分布或某些特性进行分析推断。
完全由样本决定的量,称为统计量。不依赖于总体分布中所包含的未知参数。统计量可以看做对样本的一种“加工提炼”,把样本中关于总体的信息集中起来。如样本方差、样本均值这样的统计性描述指标,这一类统计量叫做样本矩。
对比已知总体概率分布情况下的矩(理论矩),样本矩(经验矩)完全由样本数据决定,不依赖总体概率分布。
统计推断有两类基本问题,参数估计和假设检验。
参数估计
参数估计主要分为点估计、区间估计。
点估计
点估计是通过样本,带入统计量算出一个值,来作为参数的估计值。统计值称为的估计量。
常见的点估计方法有矩估计、极大似然估计、贝叶斯估计等。
矩估计就是用样本矩来估计总体矩。而总体矩是总体分布参数的函数,对得到的方程组进行求解,将所得解作为对总体分布参数的估计。
极大似然估计则是在参数可能的范围内,取使得样本的似然函数最大的作为总体分布参数的估计。
不同于以上两种方法,在抽样前,对参数没有任何了解,贝叶斯估计的出发点是在抽样之前,对参数有一定的先验知识。这些先验知识由的某种概率分布表示,称为先验分布。
在给定样本的条件下,的条件密度为
它代表了在在取得样本后对参数的知识,综合了样本带来的信息和先验知识,称之为后验分布。
如何使用后验分布来对参数进行统计推断,可以结合某些准侧一起进行。在点估计中,可以用后验均值作为对参数的估计,或使用使后验最大的参数值作为估计。
一个参数往往可以用若干个看来都合理的方法来估计,因此涉及到判断各估计优劣的问题。找到最优估计的准则是参数估计中的重要内容。
在考虑估计量的优劣时,必须先从某种整体性能去衡量,而不能看它在个别样本下的表现如何。这种整体性能一方面指估计量的某种特性,如无偏性、相合性;而另一方面也有具体的数量指标来作为评定标准,如均方误差。
区间估计
点估计是用一个数(一个点)来估计未知参数,而区间估计则是用一个区间来给出对参数的估计,同时声明参数真值在区间内的可信程度(置信度,对应的区间称为置信区间)。
区间估计多先找到待估参数的某统计量所服从的确定分布F,再根据F的特性,划取其分位点区间。再通过统计量反推得到待估参数的置信区间。