数据分析中的统计学知识

第三次复习概率论与数理统计，希望理解比之前更深刻。
仅代表本人理解，如果错误欢迎指出。

一、大数定理
直观地理解是：当样本的容量足够大（或者实验的次数足够多），样本的均值收敛于总体的均值。
投硬币实验中，设置随机变量X，当投到正面时，X=1，投到反面时X=0。做10次实验，样本的均值可能为0-1之间的任意值，但是做1000、10000次实验，X的期望值将接近于0.5。

二、三大分布

二项分布
独立重复n次实验，实验结果只有两种且互斥，假设为成功和失败。成功的概率为p，失败的概率为1-p。则n次实验中n次成功的概率为：

image.png
泊松分布
可以由二项分布推导而来，当实验次数n足够大，p非常小时（n>=20，p<=0.5)，二项分布可以近似为泊松分布。
举例来说：单位时间内的车流量可以看作一种泊松分布。假设我们通过观察知道一个小时内的平均车流数：lamda，求一小时内车流量为k的概率。
假设一种情况：路上一分钟内最多只能有一辆车通过，那么在每一分钟内，都可以看成一次伯努利实验（结果只有一辆车通过和没有车通过两种可能），那么60次实验相当于一个n=60的二项分布。但是我们的假设可能不太符合现实，一分钟内可能有多辆车通过(n太小），为了满足二项分布的性质，我们确定一个极小的时间段，使得在该时间段内，最多只有一辆车通过（即n取得特别大），此时单位时间内出现一辆车的p值=lamda\n非常小。套用二次项的公式再求极限，可以得到泊松分布的公式：

image.png
正态分布
自然界中最多的一种分布，二项分布n较大时，可近似为正态分布的形状。二项分布和泊松分布都是离散分布，而正态分布是一种连续分布。

三、假设检验

两类错误

第一类错误：弃真错误。本来应该接受原假设，但是由于显著性水平α设置过大，使得统计量落入了拒绝域，从而拒绝了原本是真的原假设。α的减小可以减少此类错误的发生。
第二类错误：取伪错误。本来应该拒绝原假设，但是统计量落入了接受域。取伪的概率为β。如图，我们本来应该接受备选假设落入黄色的区域内，但是由于抽样误差，落入了绿色范围，于是接受了原假设，造成了取伪。1-β是避免第二类错误的概率，被称为统计功效。
从图中可以看到，α和β是一增一减的关系，α增大，β会减小，反之α减小，β会增大。
减少两类错误的唯一办法是：增大样本量，使得统计量尽可能消除偶然性。

图源网络.png

中心极限定理
非常重要的一个定理，通俗来说：不论总体服从什么分布，当抽样的样本足够大时，样本的均值服从正态分布，均值为样本均值，标准差为总体标准差除以根号n(n为样本容量）。当样本容量n大于30时，可以认为是大样本。
α值和p值

α值：显著性水平，落入拒绝域的概率（拒绝原假设的概率），当构造的统计量落在该区域内，拒绝原假设。
p值：在原假设成立的情况下，检测统计量大于或小于具体样本观测值的概率。当这个值小于α时，我们拒绝原假设，否则接受。
举例来说：H0：总体均值u=u0；H1：总体均值小于u0。样本容量足够大
第一步：样本容量足够大，中心极限。样本均值服从均值为u0的正态分布，构造z统计量z0；
第二步：算出检测统计量z小于z0的概率p（利用分布函数算面积），发现算出来的p值小于α，拒绝原假设。
（可以这样理解：我们需要把显著性水平定到小于现α的一个值(p值)才能保证样本观测值落入接受域内，说明原假设是不成立的。或者说当原假设成立，统计量小于或者大于观测值是一个非常小的概率事件，说明我们要拒绝原假设）

实际如何应用：ABtest
硬骨头，待填坑。

image.png

AB test是什么：个人理解是像高中生物实验那种确定一个对照组和一个控制组，对照组实行旧方案，控制组实行新的方案。通过抽样和假设检验，判断两者总体的分布情况，从而判断新方案实施是否有效，或者效果是否明显。这里的假设检验可以对照独立分布的两个样本的总体分布。
难点：样本容量的确定，过小则随机性强，过大则对企业的试验成本太高。
目前不太理解的部分（待填坑，再让我借本统计学好好钻研下555）：
多个分组如何构造统计量？
几种分布的应用（Z, T, 卡方）
统计效能？（即1-β）
A/B test常见的两种场景：
一个是数值类的计算
如激活量（均值）、点击量、曝光量的计算
一个是比例类的计算
如转换率、点击率的提升等
如何确定样本量：
样本量的确定受到α和1-β的影响，为了同时使犯第一类错误和第二类错误的概率减小，需要增大样本量。
数值类样本量计算网址
 比值类样本量计算网址
目前看到比较好的讲解：
https://blog.csdn.net/buracag_mc/article/details/74905483
除了AB-test我们还可能需要进行AA-test，AA-test是为了检测对照组的选取是否具有代表性，是否选取了不合适的样本。

四、参数估计

参数估计的含义？
通过样本的信息去估计总体的参数
a. 介绍下矩估计？
根据大数定律，当样本容量足够大时，样本的k阶原点矩收敛于总体的k阶原点矩，因此可用此来估计总体分布的参数。使用该方法，我们不需要知道总体的分布。
b. 极大似然估计
原理：如果在一次试验中某件事发生了，我们认为这件事发生的概率是足够大的。基于此，我们使用样本观测到的值构造似然函数，似然函数代表着样本观测值出现的概率，既然它发生了，我们认为这件事是个大概率事件，因此使用似然函数的最大值近似其发生的概率，从而求得参数的估计值。
c. 如何评价估计的好坏？
无偏性：估计量是一个随机变量，由于样本的不同其取值也不同。我们希望估计量的均值等于参数的值，意为估计量的取值在参数值附近摆动，称这样是无偏的。
有效性：我们希望估计量的方差尽可能小，即该估计量取值比较稳定
一致性：依据大数定律得出，当样本容量足够大时，估计量的取值收敛于参数值。
b.区间估计
使用置信区间和置信度来估计参数。置信区间是参数的估计范围，置信度是参数落入该区间的概率。和假设检验相似，首先需要构造统计量（根据总体分布、样本容量、已知参数等），然后构造使得统计量落入置信度为1-alpha的置信区间，从而求出参数的置信区间。
参数估计与假设检验的不同？
相同：两者都是从样本估计整体特征值的方法。
不同：但是推断估计的角度不同。参数估计在参数未知的情况下，用样本去估计总体的参数值；但是假设检验先假设参数是某个值，然后再用样本的信息去估计该假设是否成立。

五、

最后编辑于：2021.08.01 19:14:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,657评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,889评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,057评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,509评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,562评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,443评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,251评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,129评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,561评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,779评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,902评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,621评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,220评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,838评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,971评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,025评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,843评论 2赞 354

数据分析中的统计学知识

推荐阅读更多精彩内容