推断统计学(一)——参数估计

0.0 描述统计学和推断统计学

        统计学是一门围绕数据展开的科学。从应用上看,可分为描述统计(descriptive statistics)和推断统计(inferential statistics)。

        描述统计是对数据整体特征进行描绘,包括集中趋势(平均数、众数、中位数)离散趋势(标准差、极差、四分位差值、全距)变化趋势(同比、环比)分布趋势(偏度、峰度)等非常耳熟能详的概念,并且描述统计也是各类统计工作(如公司年报、周报等)的主要内容。

        推断统计则是在数据描述的基础上作出更多信息的推断。

1.0 基本概念和原理说明

1.1 总体&参数 vs 样本&估计

        首先需要对总体(population)、参数(parameter)、样本(sample)、样本容量(sample size)和估计(estimator)等概念进行说明。

        总体就是对某一现象或某一事物的所有可能情况的数据集合。但实际中由于时间、地点、预算、人力等客观条件的限制无法获得数据的全集,只能经济适用地取得其中的一部分数据(即子集),这就是样本。而获取样本的过程即为抽样(sampling),这是一项严谨复杂的工作,这里就不展开说了。

        通常描述统计工作都是针对样本数据进行的,准确地来说是在描述样本,而不是总体,但是可以基于样本数据的描述对总体的数据特征进行估计,这就是参数估计(parameter estimation)。参数其实是描述总体数据的指标的统称,也称统计量(statistic),如总体均值、总体方差等。由于总体数据无法获得,这些参数实际是未知的,此时就只能通过样本数据对总体参数进行推断。这一过程就是参数估计,推断得出的数值就是参数的估计或估计值,如样本均值、样本方差等。通过参数估计使用样本信息去了解总体的过程也叫做统计推断(sample Inference)。

1.2 三种分布:总体分布、样本分布、抽样分布

        总体分布(population distribution)如字面意思,就是数据整体的分布形态

        样本分布(sample distribution)& 抽样分布(sampling distribution)则容易混淆。当进行一次抽样时,会得到一组样本数据,这组数据的分布形态为样本分布。而当进行多次抽样时会得到多组样本数据,每组样本会得到一个样本统计量(如均值),最终形成一组样本统计量,这组数据的形态为抽样分布。而用来推断总体特征的是抽样分布,而非样本分布。

Q1:为什么不直接使用样本分布推断总体?A1:对抽样方法、环境等要求苛刻,可靠性不高。

Q2:为什么抽样分布可以推断总体?A1:抽样分布具有稳定的分布性质,如样本均值服从大数定律和中心极限定理。

1.2 大数定律

       通俗来讲,大数定律(law of large numbers)说明当抽样足够多时,样本特征趋近于总体特征。这一点其实很好理解,当样本有无穷多时,样本约等于总体,此时可以理所应当地认为样本特征即为总体特征。

        大数定律有两种形式(也有说三种,下文说明):

        切比雪夫大数定律:设x_i\in \left\{x_1, x_2, ..., x_n \right\}  是任意均值为\mu 、方差为\sigma^2(不一定正态)的随机序列,x_i即为一个样本。那么当样本数无限多时,有\overline{x} = \lim_{n\to\infty} \frac{1}{n} \sum_{i=0}^n x_i \rightarrow \mu 它揭示了样本均值和总体均值的关系,即样本足够多时样本均值趋于总体均值。比较常见的例子就是问卷调查。

        辛钦大数定律,这里只说明其特殊情况——伯努利大数定律:设f_nn重伯努利实验中事件A发生的次数,pA在每次实验中发生的概率,当实验次数无限多时,则有P(A) = \lim_{n\to\infty} \frac{f_n}{n} \rightarrow p它揭示了概率与频率的关系当实验重复次数很多时,事件发生概率就等于其出现的频率。最常见例子就是抛骰子或者硬币。

1.3 中心极限定理

        中心极限定理(central limit theorem):对于任意均值为\mu ,方差为\sigma ^2的总体,当样本容量 n\geq 30时,其样本均值\overline{x} 近似服从均值为\mu 、方差为\frac{\sigma^2}{n} 的正态分布,即:\overline{x} ~N(\mu, \frac{\sigma ^2}{n} )

        \frac{\sigma ^2}{n} 表示样本统计量的离散程度,若样本量n逐渐增大,则\frac{\sigma ^2}{n} 逐渐减小,即抽样分布的方差缩小,从正态分布图像上看表现变窄。这是由于随着样本量n增大,抽样将逐渐趋近于总体,样本均值将不断趋近于总体均值,因此方差会变小,分布图像会变窄。

        中心极限定理是推断统计的核心,描述了样本量所服从的抽样分布为正态分布,参数估计和假设检验都是基于中心极限定理进行的。

2.0 参数估计

        参数估计(parameter estimation)就是使用抽样所得的样本统计量对总体参数进行估计。从估计结果上看,可分为点估计和区间估计。

2.1 点估计

        点估计(point estimation)是最为常见的估计形式,就是直接以样本统计量作为总体参数的估计值,由于样本统计量仅是一个数值,因此称之为点估计。那么区间估计,顾名思义就是以一段数值区间作为总体参数的估计值。

        常见总体参数的点估计:

        总体均值 \mu 的估计: \overline{x} = \frac{x_1+x_2+···+x_n}{n} \rightarrow \mu

        总体方差\sigma ^2的估计:S^2=\sum_{i=1}^n \frac{1}{n} {(x_i-\overline{x})}^2

        总体比例p的估计:P = \frac{1}{n} \sum_{i=1}^n x_i x_i服从伯努利分布

2.2 区间估计

        区间估计(interval estimation)是以数值区间的\mu \in (\overline{x}\pm 1.96\frac{S}{\sqrt{n}} )形式作为参数估计。那么如何确定估计区间呢?

2.2.1 均值的区间估计

        根据中心极限定理,当样本量n\geq 30时样本均值\overline{x} 近似服从正态分布N(\mu, \frac{\sigma ^2}{n} ),其中\mu 为总体均值,\sigma ^2为总体方差。根据正态分布取值的概率特征,样本均值\overline{x} 应该分别有90%、95%、99%的概率(即置信水平,confidence level)落在以\mu 为中心的\pm 1.645\frac{\sigma }{\sqrt{n}}\pm 1.96\frac{\sigma }{\sqrt{n}}\pm 2.58\frac{\sigma }{\sqrt{n}}的范围内(1.645、1.96、2.58为标准正态分布下三个置信水平的对应取值),反之即可计算得到\mu 的估计区间。

        举例来看:当1-\alpha =0.95,那么有\mu -1.96\frac{\sigma }{\sqrt{n}} \leq \overline{x} \leq \mu +1.96\frac{\sigma }{\sqrt{n}} ,移项即可得\mu 的区间估计 \overline{x}-1.96\frac{\sigma }{\sqrt{n}} \leq  \mu\leq \overline{x}+1.96\frac{\sigma }{\sqrt{n}}

        以上为总体服从正态分布,且样本量足够、方差已知的情况。其他的各种情况说明如下:

        1)当样本量n\geq 30,总体为任意分布且总体方差\sigma 已知,则\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})

        2)当样本量n\geq 30,总体为任意分布且总体方差\sigma 未知,可用样本方差S替代,则\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}})

        3)当样本量 n\leq 30,总体服从正态分布,若总体方差\sigma 已知,则\mu \in (\overline{x}\pm Z_{\frac{\alpha}{2} }\frac{\sigma}{\sqrt{n}});若总体方差\sigma 未知,则\mu \in (\overline{x}\pm t_{\frac{\alpha}{2(n-1)}}\frac{S}{\sqrt{n}});注意这里为t分布,为非正态分布了

        4)当样本量n\leq 30,总体服从非正态分布,分情况计算(卡方分布或F分布)

2.2.2 比例/概率的区间估计

        比例/概率的区间估计有些特殊:首先要求总体服从二项分布,B(n, p) ;其次要求样本量n要足够大,这里的足够大不是满足于某个数值,而是np>5np(1-p)>5。此时二项分布可近似为正态分布N(p,\frac{p(1-p)}{n} )。同上,单次实验得到的事件概率或结果比例P的置信区间为p\in (P\pm Z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}})

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,290评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,107评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,872评论 0 347
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,415评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,453评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,784评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,927评论 3 406
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,691评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,137评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,472评论 2 326
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,622评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,289评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,887评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,741评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,977评论 1 265
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,316评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,490评论 2 348

推荐阅读更多精彩内容