数据分析中的统计学知识

第三次复习概率论与数理统计,希望理解比之前更深刻。
仅代表本人理解,如果错误欢迎指出。

一、大数定理
直观地理解是:当样本的容量足够大(或者实验的次数足够多),样本的均值收敛于总体的均值。
投硬币实验中,设置随机变量X,当投到正面时,X=1,投到反面时X=0。做10次实验,样本的均值可能为0-1之间的任意值,但是做1000、10000次实验,X的期望值将接近于0.5。

二、三大分布

  1. 二项分布
    独立重复n次实验,实验结果只有两种且互斥,假设为成功和失败。成功的概率为p,失败的概率为1-p。则n次实验中n次成功的概率为:


    image.png
  2. 泊松分布
    可以由二项分布推导而来,当实验次数n足够大,p非常小时(n>=20,p<=0.5),二项分布可以近似为泊松分布。
    举例来说:单位时间内的车流量可以看作一种泊松分布。假设我们通过观察知道一个小时内的平均车流数:lamda,求一小时内车流量为k的概率。
    假设一种情况:路上一分钟内最多只能有一辆车通过,那么在每一分钟内,都可以看成一次伯努利实验(结果只有一辆车通过和没有车通过两种可能),那么60次实验相当于一个n=60的二项分布。但是我们的假设可能不太符合现实,一分钟内可能有多辆车通过(n太小),为了满足二项分布的性质,我们确定一个极小的时间段,使得在该时间段内,最多只有一辆车通过(即n取得特别大),此时单位时间内出现一辆车的p值=lamda\n非常小。套用二次项的公式再求极限,可以得到泊松分布的公式:


    image.png
  3. 正态分布
    自然界中最多的一种分布,二项分布n较大时,可近似为正态分布的形状。二项分布和泊松分布都是离散分布,而正态分布是一种连续分布。

三、假设检验

  1. 两类错误
  • 第一类错误: 弃真错误。本来应该接受原假设,但是由于显著性水平α设置过大,使得统计量落入了拒绝域,从而拒绝了原本是真的原假设。α的减小可以减少此类错误的发生。
  • 第二类错误:取伪错误。本来应该拒绝原假设,但是统计量落入了接受域。取伪的概率为β。如图,我们本来应该接受备选假设落入黄色的区域内,但是由于抽样误差,落入了绿色范围,于是接受了原假设,造成了取伪。1-β是避免第二类错误的概率,被称为统计功效。
    从图中可以看到,α和β是一增一减的关系,α增大,β会减小,反之α减小,β会增大。
    减少两类错误的唯一办法是:增大样本量,使得统计量尽可能消除偶然性。


    图源网络.png
  1. 中心极限定理
    非常重要的一个定理,通俗来说:不论总体服从什么分布,当抽样的样本足够大时,样本的均值服从正态分布,均值为样本均值,标准差为总体标准差除以根号n(n为样本容量)。 当样本容量n大于30时,可以认为是大样本。
  2. α值和p值
  • α值:显著性水平,落入拒绝域的概率(拒绝原假设的概率),当构造的统计量落在该区域内,拒绝原假设。
  • p值:在原假设成立的情况下,检测统计量大于或小于具体样本观测值的概率。当这个值小于α时,我们拒绝原假设,否则接受。
    举例来说:H0:总体均值u=u0;H1:总体均值小于u0。样本容量足够大
    第一步:样本容量足够大,中心极限。样本均值服从均值为u0的正态分布,构造z统计量z0;
    第二步:算出检测统计量z小于z0的概率p(利用分布函数算面积),发现算出来的p值小于α,拒绝原假设。
    (可以这样理解:我们需要把显著性水平定到小于现α的一个值(p值)才能保证样本观测值落入接受域内,说明原假设是不成立的。或者说当原假设成立,统计量小于或者大于观测值是一个非常小的概率事件,说明我们要拒绝原假设)
  1. 实际如何应用:ABtest
    硬骨头,待填坑。


    image.png
  • AB test是什么:个人理解是像高中生物实验那种确定一个对照组和一个控制组,对照组实行旧方案,控制组实行新的方案。通过抽样和假设检验,判断两者总体的分布情况,从而判断新方案实施是否有效,或者效果是否明显。这里的假设检验可以对照独立分布的两个样本的总体分布。

  • 难点:样本容量的确定,过小则随机性强,过大则对企业的试验成本太高。

  • 目前不太理解的部分(待填坑,再让我借本统计学好好钻研下555):
    多个分组如何构造统计量?
    几种分布的应用(Z, T, 卡方)
    统计效能?(即1-β)

  • A/B test常见的两种场景:
    一个是数值类的计算
    如激活量(均值)、点击量、曝光量的计算
    一个是比例类的计算
    如转换率、点击率的提升等

  • 如何确定样本量:
    样本量的确定受到α和1-β的影响,为了同时使犯第一类错误和第二类错误的概率减小,需要增大样本量。
    数值类样本量计算网址
    比值类样本量计算网址
    目前看到比较好的讲解:
    https://blog.csdn.net/buracag_mc/article/details/74905483

  • 除了AB-test我们还可能需要进行AA-test,AA-test是为了检测对照组的选取是否具有代表性,是否选取了不合适的样本。

四、参数估计

  1. 参数估计的含义?
    通过样本的信息去估计总体的参数
    a. 介绍下矩估计?
    根据大数定律,当样本容量足够大时,样本的k阶原点矩收敛于总体的k阶原点矩,因此可用此来估计总体分布的参数。使用该方法,我们不需要知道总体的分布。
    b. 极大似然估计
    原理:如果在一次试验中某件事发生了,我们认为这件事发生的概率是足够大的。基于此,我们使用样本观测到的值构造似然函数,似然函数代表着样本观测值出现的概率,既然它发生了,我们认为这件事是个大概率事件,因此使用似然函数的最大值近似其发生的概率,从而求得参数的估计值。
    c. 如何评价估计的好坏?
    无偏性:估计量是一个随机变量,由于样本的不同其取值也不同。我们希望估计量的均值等于参数的值,意为估计量的取值在参数值附近摆动,称这样是无偏的。
    有效性:我们希望估计量的方差尽可能小,即该估计量取值比较稳定
    一致性:依据大数定律得出,当样本容量足够大时,估计量的取值收敛于参数值。
    b.区间估计
    使用置信区间和置信度来估计参数。置信区间是参数的估计范围,置信度是参数落入该区间的概率。和假设检验相似,首先需要构造统计量(根据总体分布、样本容量、已知参数等),然后构造使得统计量落入置信度为1-alpha的置信区间,从而求出参数的置信区间。
  2. 参数估计与假设检验的不同?
    相同:两者都是从样本估计整体特征值的方法。
    不同:但是推断估计的角度不同。参数估计在参数未知的情况下,用样本去估计总体的参数值;但是假设检验先假设参数是某个值,然后再用样本的信息去估计该假设是否成立。

五、

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容