面试 - 简书

1.说一下大数定理？

1.通俗地说，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。偶然中包含着必然。

2.不同的大数定理主要讨论在一下不同条件下，随机变量序列的算术平均依概率收敛到其均值的算术平均。

微信截图_20190909142330.png

3.大数定律总的讲，有伯努利大数定律，切比雪夫大数定律，马尔科夫大数定律，辛钦大数定律

其中

伯努利大数定理：是讲在n次伯努利实验中也就是独立同分布的情况下。
切比雪夫大数定律是：设{X_n}为一列两两不相关的随机变量序列，若每个 $X_i$ 的方差存在，且有共同的上界，

伯努利大数定律是切比雪夫大数定律的特殊情况。

马儿科夫大数定律：随机变量序列满足

微信截图_20190909182022.png

的情况下，不要求独立，不要求满足同分布。
辛钦大数定律：独立同分布的随机序列，若存在数学期望

2.说一下中心极限定理？

1.中心极限定理讨论随机变量序列部分和分布渐近于正态分布的一类定理

2.中心极限定理主要有独立同分布下的正态近似、二项分布的正态近似、独立不同分布下的正态近似

3.卡方分布是什么？

定义：n个独立同分布标准正态分布的随机变量，这n个随机变量平方和的分布称为自由度为 $n$ 的卡方分布。

卡方分布也就是伽马分布的特例，是n个独立伽马分布和的分布
密度函数：

微信截图_20190909184731.png
图像：

微信截图_20190909184825.png

性质：

微信截图_20190909185304.png
分位数：

微信截图_20190909185847.png
例子：

微信截图_20190909190132.png

4.t分布是什么

微信截图_20190909153635.png

微信截图_20190909153819.png

微信截图_20190909191025.png

定义：
密度函数
图像：对称
性质：趋近正态分布
分位数：

5.F分布是什么？

微信截图_20190909153546.png

-- 密度函数：

微信截图_20190909191450.png

微信截图_20190909191535.png

微信截图_20190909191605.png

性质：
- F分布的倒数还是F分布
分位数：

若

微信截图_20190909192038.png

6.一些推论？

微信截图_20190909192519.png

微信截图_20190909193023.png

微信截图_20190909193232.png

微信截图_20190909193642.png

微信截图_20190909194547.png

微信截图_20190909194722.png

微信截图_20190909194842.png

微信截图_20190909195001.png

微信截图_20190909195202.png

7.AB test

什么是ABtest

答：将Web或App界面或流程的两个或多个版本，在同一时间维度，分别组成成分相同（相似）的访客群组访问，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。

AB测试强调的是同一时间维度对相似属性分组用户的测试，时间的统一性有效的规避了因为时间、季节等因素带来的影响，而属性的相似性则使得地域、性别、年龄等等其他因素对效果统计的影响降至最低
abtest 流程

AB测试是一个反复迭代优化的过程，它的基本步骤如下图所示可以划分为：

1.设定项目目标即AB测试的目标

2.设计优化的迭代开发方案，完成新模块的开发

3.确定实施的版本以及每个线上测试版本的分流比例

4.按照分流比例开放线上流量进行测试（要保证实验的有效性，要确定分流是否已经到达所需要的最小样本量）

5.收集实验数据进行有效性和效果判断

6.根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验
abtest的注意事项
- 用户的有效分组以及如何判断实验中不同分组用户属性的相似性
- 试验过程中如何收集用户的体验和业务数据，如何对收集的数据进行分析并判断不同版本间的优劣
- 影响用户决策的新产品上线和其他具有风险性的功能上线通常采用先从小流量测试开始，然后逐步放大测试流量的方法。但是，测试版本的流量如果太小又可能造成随机结果的引入，试验结果失去统计意义。
- 为了规避样本量带来的不足我们可以：
  
  1.试验设计时预估进入试验的样本量，做分流规划时避免分配给测试集的样本量过少。
  
  2.除了进行AB测试外增加关于数据有效性考量的AA测试，将原始版本的流量中分出两个和测试版本相同的流量也进入测试。例如：为测试一个新的功能，我们原本准备划分90%流量给老版本，10%流量给新版本；这时我们可以分配70%流量给老版本A，同时生成两个10%流量的老版本C和D进行AA测试，然后把剩余的10%流量给新版本B；在试验过程中通过考察分配给老版本C和D的两股流量是否存在显著性差异，从而认定试验分流是否有效。
  
  3.如果参与测试新版本已经分配了很大的流量比例，但是仍然存在样本量不足的情况，这时就只能通过拉长试验时间的方式来累积足够的样本量进行比较了。需要参考用户的行为周期。
- 多层次正交的实验方式使多个并发实验都可以保证具备一定流量的并行进行
假设检验流程
- 建立假设（常将没有充分理由不能否定的命题作为原假设）
- 选择检验统计量
- 选择显著性水平 $\alpha$
- 计算拒绝域或是计算P值
- 得出结论
假设检验的原理：小概率原理
两类错误：
- 第一类错误（拒真错误、显著性水平）： $H_0$ 为真，但是由于随机性，统计检验量落在了拒绝域内
- 第二类错误（取伪错误）： $H_0$ 为假，但是由于随机性，统计检验量落在了接收域内。
- 两者的大小是相对的，一个减小势必导致另一个增加。所以要在适当控制拒真错误中制约取伪错误。
检验P值：

利用样本观测值能够做出拒绝原假设的最小显著性水平称为检验P值
势函数或者功效函数

样本观测值落在拒绝域内的概率称为该检验的势函数。
假设检验的分类
- 单个正态总体均值的检验
  - 方差已知时的检验
    
    微信截图_20190909225442.png
  - 方差未知时的检验
    
    微信截图_20190909225459.png
两个正态总体均值差的检验
- 方差已知的检验

微信截图_20190909225542.png

方差相等但是未知的检验

微信截图_20190909225554.png

单个正态总体方差的卡方检验

微信截图_20190909225913.png

微信截图_20190909225925.png

两个正态总体方差的F检验

![微信截图_20190909230021.png](https://upload-images.jianshu.io/upload_images/10558298-676c219f09da36e8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

面试

1.说一下大数定理？

2.说一下中心极限定理？

3.卡方分布是什么？

4.t分布是什么

5.F分布是什么？

6.一些推论？

7.AB test

什么是ABtest

abtest 流程

abtest的注意事项

假设检验流程

假设检验的原理：小概率原理

两类错误：

检验P值：

利用样本观测值能够做出拒绝原假设的最小显著性水平称为检验P值

势函数或者功效函数

假设检验的分类

单个正态总体均值的检验

两个正态总体均值差的检验

推荐阅读更多精彩内容