小样本AB test:Bias消除,Variance降低

AB test基于统计学远离。通过随机划分,均匀分布的假设来实现控制变量对照的作用。但是对于小样本则会面临很多问题,有的产品流量不小,但是关键指标的贡献者很少,也是小样本状态。譬如直播打赏。
常见的问题有如下两个:

抽样不均(非完全randomized)(修正bias)

  • 背景:
    单纯地随机用户分组,在用户体量够大的情况下,能保证均匀性。但是当我们相关指标用户呈现头部集中的情况,譬如top 2%用户贡献了40%的gmv,那么对这2%的用户随机分组有很大概率不均。(分组之间有偏差)。
    现象:在aa中,分组一直有稳定差异。
    这个问题也会出现在Observational 实验中。对于这些实验,我们无法控制使其完全randomized。

  • 问题:
    如何解决这种样本量抽样不均的问题?

  • 如何解决:
    方法1:解决分组偏差的方法其1就是在实验之前进行aa实验,然后ab阶段的diff减去aa的diff。[1]
    方法2:其2则是通过算法找到在相应指标(如gmv)上的均匀的分组,aa保证其均匀性,再进行实验。[2]
    推荐方法3:使用PSM(propensity score matching)来进行实验数据的统计评估。[3]

指标数值不稳定(variance过大)

  • 背景:
    我们观测的指标数值,在一定周期内呈现不稳定的状态。
    现象:在aa中,无论如何随机分组,其组间diff都是不稳定的。有时候a组高,有时候b组高,或者其diff差值变化太大,时而大时而小。
    这个问题的本质是variance过大,组内variance过大,甚至大于均值的差值,这个视角可以参考F-test与ANOVA
    与上述问题(分组不均)是独立的两个问题,这两个问题可能都会存在。譬如就算我们成功进行了完全随机的分组,也可能因为组内样本太少,导致variance过大。
  • 问题:
    这种问题相对也是常见的,就譬如用户复购周期本身有很大diff,比如有的用户隔日购买,有的用户一周购买一次,如果我们的算法在复购这个维度上分配不均,可能导致比如两个分组前几天是稳定均衡的,在后面几天就开始出现diff。(当然,对于复购周期这个问题,在最小公倍数的周期下统计可以稳定,但是这个最小公倍数是多少无法观测,而且周期可能也太长了)但是从理论上来讲,只要样本个体足够多,就能一定程度上解决这个问题:个体数量于variance成反比,数量越大variance越小。
    还有些时候,可能纯粹是因为小概率的随机性,譬如突然出现一个之前从未出现的野生土豪,购买了超多东西。这种随机性,通过历史数据的统计是无法捕捉的。当然,如何界定与评估也是难点之一

  • 如何解决:
    如果出现这个问题,则是最难解决的。
    方法1:降低variance最直觉的方案就是,增加样本:提升实验时长,提升实验组流量。但是增加样本成本太高,过长的决策周期也可能引入更多的不确定因素(譬如10月份的实验,多做几天就要双11大促了)
    方法2:参数化评估,譬如用Linear Model,引入covariate,通过X(是否在实验组)的系数,以及系数的显著性来评估(ANCOVA),延伸还有semi-parametric method[10]
    推荐方法3:核心思路在不增加样本的情况下进行variance reduction[4]


Refer:
[1]:pre-experiment数据很重要。最简单的方式,就是将ab组进行实验前的数据diff记录下来,作为原始差值,但是一般情况下,如果这个差值太大,可能用这两个组的实验数据会有较大偏差,因而会影响实验的结论。

[2]:衍伸问题1: 多维度限制下构建正交的无偏分组。
在特定指标的维度,构建无偏且正交的分组?这也是一个比较难以解决的问题。
因此,这种方案某些情况下也比较难以实操。

[3]An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Observational Studies。我们用高维的特征向量X,构建对treatment(分组)的预估作为propensity score,在各个分组内,ps相近的样本,视为类似的样本。然后对ps进行分桶,分不同桶来统计treatment的ATE(Average Treatment Effect)。这个思路本质其实也是消除X不同带来的影响(影响一部分来自X的差异,一部分来自Treatment。所以用propensity score相近的条件,来近似视为X相近。X为高维度向量,直接匹配X相近不现实,况且也不一定是X所有的维度都在分组上不均)。

  • formulation很简单:
    given X:covariate的情况下,treatment assignment:Z与potential outcomes r无关:
    r_{(t)},r_{(c)} \perp Z | X
    对于Propensity Score b(X)的假设如下:
    Z \perp X | b(X)

具体使用方法推荐stratification与matching:

  • 前者按照ps分组即可(具体比如按实验组等人数划分【保证每个桶内实验组的人数是一样的,注:此时对照组的人数肯定是不一样的。】,还是其他更specific的分桶方法都可以,满足有一定的样本避免variance过大即可【数据量太少,可能会导致组内均值的diff的variance过大,Ttest也会得到较小的显著性校验结果】,分组会导致数据量减少,而数据量的减少本身也会降低statistical power,一定是propensity score做stratification 带来的提升大于数据量降低的负面作用才行,所以一般分组也不会太多。)具体步骤可以见:Stratification and Weighting Via the Propensity Score in Estimation of Causal Treatment Effects: A Comparative Study 中的2.3节

  • 后者做matching,即按照propensity score对样本进行采样。(根据样本量选择,有无放回都可以)之后对采样后的样本进行检验即可。

  • PS0:当然也有IPW的方法,可以见Variance reduction in randomised trials by inverse probability weighting using the propensity score

  • PS1:在匹配过程中,也可能遇到无法匹配到的状态,譬如某些类型的用户只被分配到了A组,那么treatment=A的概率很高,在B组中可能找不到这样的样本。这时候也可以进行trim,直接截断去掉这些样本。(但是理论上这些问题应该尽力避免,因为这样你就无法捕捉

  • PS2:由于是小样本,很可能用以估计PS的样本量也很小,所以此处用的模型可能就不要(也不需要)太复杂以防overfitting。(在这里,当我们只用样本的抽样做估计的时候,会存在overfitting问题,如果是全量数据,其实不存在overfitting【本身就没有testing的过程】,这种情况,可能也不需要特别复杂的模型,因为可能再复杂的模型,也无法提升拟合程度)

  • PS3:关于covariate的选择,核心选择是confounder(即影响结果,又影响分组的变量【其实这里的causality定义也是模糊的,更多就是correlation】),当然,由于我们可能并不知道对outcome有影响的变量中,哪些变量是对treatment有影响的(单纯从correlation角度讲就是,分布不均),所以可以将所有与outcome相关的都加入。所以这里引入两个问题
    第一:如果只对结果有影响,会怎样?这里其实不会造成特别的影响,因为该变量对预估treatment应该是无关的。
    第二:能否引入只对treatment有影响的变量?这样其实没有意义,因为本质我们是想在AB组找到匹配的X,如果某变量只对treatment有影响的变量,则这个变量其实不需要match。
    第三:本身无法匹配的变量怎么办,譬如uid?因为PSM本质是X的匹配,所以无法匹配的变量是不能加入模型的,因为这样会导致AB间没有可以匹配的分数。(加入uid,模型完全能直接准确预估分组,A组p=1,B组p=0)。更进一步,ABtest的假设本身也是:在个体间具有可比性:即个体1接受treatment后的指标与个体2不接受treatment的指标是可以比较的。而match本身的意义是控制变量,如果控制了uid这个变量,即认定个体间【不同uid】不可比,那实验本身的假设就不成立了。所以uid本身不能参与outcome的causality作为confounder。

  • PS4:关于模型的验证:1、模型本身的metric。2、用该方法在AA实验中验证。3、验证类似分数下,X变量的相似性(不过这个方案感觉本身意义不大)。4、以及更直觉的方法评估,在真实实验中,验证这种方法能否用更小的样本(时间)作出正确的决策(ground truth正确的决策由更长时间,样本量的实验来给出)

- PS5:注,当我们研究的变量是总GMV等,其实metric是针对所有用户的GMV和,但是我们Propensity Score是在用户维度计算的,这里是不匹配的。所以一种方式是我们要将研究的目标变量替换成GMV均值,但是这里其实是有问题的,因为总gmv提升显著不一定人均提升显著。
能否参考Control Variate中的Variance计算?(TODO:这个方法假设实验组对照组的metic是独立的,这里似乎有点问题,因为做了matching后理论上就不是independent的了)
另外,paired test如何进行。

- TODO:此处显著性计算?Matching方法可以直接计算显著性,但是这个显著性本身其实是有问题的,因为只要你增大Matching的数量,显著性就会提升。对于Stratification方法,每个分组的显著性也可以直接计算。但总体差异的显著性如何计算?

[4]:variance reduction。
其实有很多思路,譬如在Monte-Carlo Simulation中的Stratified Sampling。
其中一个非常基本,非常直觉,也非常重要的推论是:降低单个分组(AB组)本身指标的variance,与降低Treatment effect的variance是等价的。
因为\overline Y_a,\overline Y_b可以认为是独立的,所以:Var(\overline Y_a- \overline Y_b) = Var(\overline Y_a) + Var(\overline Y_b)

  • 方式1:stratification的方式有at-assignment,即进行stratified-sampling 进行分组。post-assignment,进行 post stratification。stratification通过剔除组间方差的方式降低variance。实现起来非常简单,找好分层参数X,根据X取值分为n层。得到新的差值\hat Y_{start}
    核心公式:
    var(\overline Y) = \sum_{k=1}^K \frac {p_k} n \sigma_k^2 + \sum_{k=1}^K \frac {p_k} n (u_k-u)^2 \ge var(\hat Y_{start}) = \sum_{k=1}^K \frac {p_k} n \sigma_k^2
    注:var(\hat Y_{start})是组内均值的variance的加权和\sigma_k^2是每组的样本方差,除以样本量n可以理解为第k组的均值的方差。即组间均值被分组covariate解释掉了。因此在计算p-value时,这种方法能得到更显著的结果。

  • 方式2:Control Covariate:这种方法可以针对continuous variable进行修正。
    用pre-experiment的特征covariate X来拟合我们的目标metric Y,拟合单位为每个样本(用户),此处用OLS直接拟合线性最优解即可。
    核心公式:
    Var(\hat Y_{cv}) = Var(\overline Y)(1- R^2)
    注:
    SSE:sum of squares of residual(Error)(unexplained variation)
    SSR:sum of squares of Regression(explained variation)
    SST:sum of squares of total(total variation)
    满足SST=SSE+SSR
    得:R^2= 1- \frac {SSE} {SST}=1-\frac {\sum (\hat y_i - y_i)^2}{\sum (y_i-\overline y)^2}即可计算Var(\hat Y_{cv})
    注:在实验中,treatment 与 control组的参数需要一致,所以直接用两组的数据预估即可,Var(\hat Y_{cv}^{(c)})Var(\hat Y_{cv}^{(t)})可以用以上相同的办法算出。根据上述等式,带入Var(\overline Y) = \frac {Var(Y)} {n}=\frac {S^2} {n}=\frac {SST} {n(n-1)}来求解。用sample variance作为总体variance的估计,注意,在未知总体均值u的情况下,样本方差S^2的自由度为n-1
    https://www.zhihu.com/question/36524138

  • 根据上述的reduced Variance,进行p-value计算:根据Z-statistics(数据量小时可以用T),能分别得到对照组:\hat Y_{start}^{(c)}与实验组:\hat Y_{start}^{(t)}的variance,整体实验的显著性校验如下:
    Z=\frac {E(\hat Y_{start}^{(t)} -\hat Y_{start}^{(c)})} {Var(\hat Y_{start}^{(t)} -\hat Y_{start}^{(c)})} = \frac {E(\hat Y_{start}^{(t)} -\hat Y_{start}^{(c)})} {Var(\hat Y_{start}^{(t)}) + Var(\hat Y_{start}^{(c)})}

见Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data以及Improving the Sensitivity of Online Controlled Experiments: Case Studies at Netflix
https://booking.ai/how-booking-com-increases-the-power-of-online-experiments-with-cuped-995d186fff1d

上述两种方法,本质我们都是用一些维度变量(covariate)上的信息来解释整体的variance:也类似ANCOVA。covariate选取的要点是,该变量必须是实验treatment无关的(不受实验影响)。可以证明的是,对于离散变量。使用stratification与Covariates Control是等价的。

[5]: statistical power and p-value : https://www.quora.com/What-is-the-relationship-between-statistical-power-and-the-p-value

[6]:anova and linear regression,其他ABtest相关,https://github.com/DSXiangLi/Paper_CausalInference_abtest

[7]上述两个问题解决方法的差异:
1、解决不均问题,调整了结论(通过PSM计算出来的均值diff,可能跟直接计算出的结论完全不同)
2、解决variance问题,用covariate解释了variance,但是没改变结论

[8]一些其他的思考:
我们每日实验统计,作为单独的对照,是否也是stratified by each day?

[9]关于检测对象的问题。
首先,针对上述方法,我们analysis unit都是用户,randomization unit也是用户。所以可以直接进行variance的计算,以及p-value的检验。但是当我们分析的对象不是用户时,比如是“每日总GMV”,此时需要作出一些修改。(这里相当于要将所有数据进行日级别的聚合,analysis unit是day)
本质就是:ATE本来是在用户级别算average的,现在要在天级别算average。

  • 前提结论1,总体的指标(Total Treatment Effect)差异显著与均值(Average Treatment Effect)差异显著等价。
    假设:E(ATE)=E(y)=\overline yy_i为我们感兴趣的目标变量,譬如i_{th}用户的gmv,n为用户总数,Totally Effect E(TTE)=\sum_i^n y_i=n \overline y
    下面我们进行假设检验的等价性的证明即:H_0^{a}:E(ATE)=0H_0^{b}:E(TTE)=0是等价的,分别计算T-statistics:
    T^a=\frac {E(\overline y)} {S(\overline y )} = \frac {E(\overline y)} { \frac {S(y)} {\sqrt n}}
    T^b=\frac {E(n\overline y)} {S(n\overline y )} = \frac {E(\overline y)} {S(\overline y )}
    即,两者是等价的。所以原则上,可以直接转变为检验ATE是否显著。

  • 前提结论2,我们之前按天算的 Daily Treatment Effect与Total(average) Treatment Effect在特定条件下等价:当一个组内,天与天之间的样本都是独立同分布时,DTE与ATE是等价的。
    identical:即用户不同天的指标y都来自于同一个随机变量【譬如来自于长尾分布f,那么一天的样本即是对f进行n次采样获得。但是当某天有活动时,很大概率,这也不是同分布了】。
    independent:且天与天直接互不干涉【实际上某些情况下,这个假设过于强烈了。譬如购买gmv,当用户的总预算受限,其每天的值就并不是独立的】)
    对于DTE的校验来说,我们将每日的diff记为随机变量,检测该随机变量在AB组的均值差异。我们形式化一下:y_a^{ij},y_b^{ij}分别为A组,B组第i个用户,第j天的gmvm为天数,总用户数量n


    设两组的总差异:D=\sum_j^m \sum_i^n y_a^{ij} - \sum_j^m \sum_i^n y_b^{ij}
    DTE: T=\frac {E(\overline d)} {\sqrt {Var(\overline d)}}=\frac {E(\frac D m)} {\sqrt{Var(\frac D m)}}
    ATE: Z=\frac {E(\overline d)} {\sqrt {Var(\overline d)}}=\frac {E(\frac D n)} {\sqrt{Var(\frac D n)}}
    所以两者的理论值等价。
    当且仅当天与天的差值独立同时如下式子成立:
    Var(\frac D m)
    = Var(\frac {\sum_j^m (\sum_i^n y_a^{ij} - \sum_i^n y_b^{ij})}{m})
    \approx \frac {S^2(\sum_i^n y_a - \sum_i^n y_b )}{m}
    (即我们当前分天数据均值variance的计算方法)
    当且近当个体的和互相独立时,如下式子成立:
    Var(\frac D n)
    = Var(\frac {\sum_j^n (\sum_i^m y_a^{ij} - \sum_i^m y_b^{ij})}{n})
    \approx \frac {S^2(\sum_j^m y_a) +S^2(\sum_j^m y_b )}{n}
    (即我们当前用户指标均值的variance的计算方法)
    所以,两者期望一致的一个充分条件是,所有个体分天数值独立同分布。


    详细推导:

    • a) DTE做T test的理论值:
      每天均值的diff:
      \overline d=\frac {\sum^m \sum^n y_a^{ij} - \sum^m \sum^n y_b^{ij}} m
      =n(\overline y_a - \overline y_b)(天与天之间独立同分布假设)
      均值的variance:
      Var(\overline d)=Var(\frac {\sum^m \sum^n y_a^{ij} - \sum^m \sum^n y_b^{ij}} {m}) \approx \frac {S_d^2}{m}(这里每天直接配对做了AB组的差,其实不需要假设AB独立)
      =\frac {mn}{m^2}(Var(y_a) + Var(y_b))(AB组独立假设,这个假设在任何AB实验中一致)
      =\frac {n}{m}(Var(y_a) + Var(y_b))
      所以理论值
      T=\frac {E(\overline d)}{\sqrt {Var(\overline d)}}
      =\frac {n(\overline y_a -\overline y_b)}{\sqrt {\frac {n}{m}(Var(y_a) + Var(y_b))}}(带入上述\overline d的方差)
      =\frac {n(\overline y_a -\overline y_b)}{\sqrt {\frac {n}{m}(Var(y_a) + Var(y_b))}}
      \frac {(\overline y_a - \overline y_b)} {\sqrt \frac {Var(y_a)+ Var(y_b)} {nm} }
    • b) ATE进行T(Z)检验时:
      Z=\frac {E(\overline y_a - \overline y_b)} {\sqrt {Var(\overline y_a - \overline y_b)}}
      =\frac {m(\overline y_a - \overline y_b)} {\sqrt {Var(\frac {\sum^m \sum^n y_a - \sum^m \sum^n y_b}{n})}}
      = \frac {m(\overline y_a - \overline y_b)} {\sqrt {\frac {nmVar(y_a) + nmVar(y_b)}{n^2}}} \approx \frac {u_a-u_b}{\sqrt {\frac {S_a^2 + S_b^2}{n}}}(AB组独立假设)
      =\frac {(\overline y_a - \overline y_b)} {\sqrt \frac {Var(y_a)+ Var(y_b)} {nm} }

可以看出,DTE与ATE在当前假设(个体的指标的分布与weekday无关)下,理论值是等价的。

  • 相关推断1:当每天的数据不是独立同分布的时候,分天DTE与ATE是否等价?要分情况讨论


    1、d是否满足正太性检验?
    前提:原来在假设每天独立同分布的时候,根据中心极限定理,每个组的采样的均值是满足正太分布的,则其差也符合正太分布。
    由AB组独立假设:Var(d^i)=Var(\sum y_a^i- \sum y_b^i)=nVar(y_a^i)+nVar(y_b^i)
    当每天方差不同时:Var(y_a^i) \neq Var(y_a^j),可以得到Var(d^i) \neq Var(d^j)
    即,差值每天理论的方差也是不同的,当天之间的方差差别很大的时候,则样本不满足正太性假设,所以理论上也不能用分天T检验。(这种情况理论上无法进行T检验,所以当然也不等价了)


    2、当d满足正太性检验时
    这种情况下,其实可以进行Ttest。实际在计算中,按照原来的计算方法,根据样本方差S_d^2做Ttest。
    所以这里算出来的


    对DTE来说:
    \frac {S_d^2} {m} \approx \frac {Var(d)} {m}
    = Var(\overline d)
    = \frac {Var(\sum_j^m(\sum_i^n y_a^{ij} - \sum_i^n y_b^{ij}))} {m^2} =\frac {Var(\sum_i^n y_a^{ij} - \sum_i^n y_b^{ij})} {m}(每天差值独立同分布下成立)
    =\frac {n(Var( \sum_j^m y_a^j) + Var( \sum_j^m y_b^j))}{m^2}
    T=\frac {\frac {\sum_i^n\sum_j^m y_a^{ij} - \sum_i^n\sum_j^m y_b^{ij}} m}{\sqrt {\frac {n(Var( \sum_j^m y_a^j) + Var( \sum_j^m y_b^j))}{m^2}}}


    对于ATE来说:
    \frac {S^2(\sum_j^m y_a^j)+S^2(\sum_j^m y_b^j)}{n}
    \approx \frac {Var( \sum_j^m y_a^j) + Var( \sum_j^m y_b^j)} {n}
    = Var(\frac {\sum_i^n\sum_j^m y_a^{ij} - \sum_i^n\sum_j^m y_b^{ij}} n)(这里只有当AB组相互独立的时候,才能等价)
    Z=\frac {\frac {\sum_i^n\sum_j^m y_a^{ij} - \sum_i^n\sum_j^m y_b^{ij}} n} {\sqrt { \frac {Var( \sum_j^m y_a^j) + Var( \sum_j^m y_b^j)} {n}}}


    由上面可知,只要AB组独立,ATE就与DTE是等价的。
    由于:
    Var( \sum_j^m y_a^j) + Var( \sum_j^m y_b^j)=(\sum_j^m Var( y_a^j) +\sum_{j1} \sum_{j2 \neq j1} Cov(y_a^{j1},y_a^{j2})+ \sum_j^m Var( y_b^j) + \sum_{j1} \sum_{j2 \neq j1} Cov(y_b^{j1},y_b^{j2}))
    所以其实DTE这种算法也没有消除不同天之间的差异性。当然,由于协方差Cov的方向性(即Cov项只和不一定会大于0),所以消除它们不一定能提升检验显著性。这里直觉上也很好理解,譬如:当用户的总预算一致的时候,直接求和的方差可能更小一点,而分天求再计算方差会更大。


  • 前提结论3:关于分天匹配检验的逻辑:
    由于不同weekday本身也带来了差异(每天的条件,活动),所以我们平时用的检验方法是,进行分天T配对样本检测,但这个方法并不是为了消除天之间的差异,而是为了保证在AB组不独立的情况下能进行检验。


    这样每天本身的差异就消除了(比如其中某一天有统一优惠)。我们其实可以简单地检验下分天的均值方差是否相等,(目前看是差异比较大的)。要解决的方案也是比较简单地,即在后续降低Variance的方法中加入weekday作为Covariates。
    原本计算ATE的variance时为直接计算用户粒度的Var(Y_{cv})=\frac {\sum_i^{n} (\hat y_i - y_i)^2}{n}
    加入weekday后,注意计算的粒度发生了变化,计算Daily ATE:Var(Y_{cv})=\frac {\sum_j^m \sum_i^{n_j} (\hat y_{ij} - y_{ij})^2}{\sum_j^m n_j},分子也需要由总用户均值差转变为Daily 用户均值差(虽然就算直接均分解掉variance,理论比例就是\frac 1 m,但是这里分子也\frac 1 m,所以理论检验出的p值在weekday本身不能解释个体变化的情况下也是一致的【符合预期】)。
    PS:注意,weekday并不一定能带来variance的降低,因为我们要解释的是用户间的差异(个体间的variance),而weekday这个变量对所有用户是相同的,如果所有的用户都经历了weekday1~weekdayn。可能需要与别的covariate交叉。
  • 对于PSM stratification的方案:一种非常直觉的方案就是,不改变每日对照匹配的基本模式,引入人数的因子,将人均期望转换成总期望。(这个方式是合理的,因为PSM本身其实是一种修正bias的方式,总的期望与均值的期望都是经过矫正后的值。
    1、通过调整后的均值(每个stratum得到Y^{(c)} ,Y^{(t)})通过Y^{(c)}(当前语境下对照组人均gmv)来计算“在与实验组treatment group相同人数的条件下,对照组的期望总GMV",分stratum进行计算后,即可汇总成当日的总GMV
    2、依旧按照T-test的框架,研究对象为匹配样本(每天)gmv的差d = Y^{(c)} - Y^{(t)}H_0:d=0,H_1:d > 0
  • 对于PSM Matching的方案:与上述方法类似,不改变每日对照匹配的基本模式,得到ATE后,将其转换为总GMV期望。然后后续检验方法一致。

  • 对于Variance Reduction中Covariate Control的方案
    最直接的方式,我们修改我们DTE的目标变为ATE,理论上,这是一个更直接的指标,能够帮我们更好地决策。但是之前的问题是,由于成熟的产品中,实验的影响会非常的小,而用户购买的GMV本身的variance又非常的大,我们很难得到一个很显著的结果(这也是我们之前用DTE来评估的原因之一)。然而通过Variance Reduction的方案,我们可能可以极大地降低variacne,以此获得可靠的实验结果。
    当然,这里其实还是有很多样本选择的问题,比如如果只选择购买的用户能降低整体variance?但是产生selection bias,导致影响购买与否的效果被忽略。

  • 对于Variance Reduction中Covariate Control的方案2
    见上述论文 4.4 Handling Non-User Metric,appendix b: GENERALIZATION TO OTHER ANAL- YSIS UNIT

我们用最基本的方式可以计算出Var(Y_{cv}^{(c)}),Var(Y_{cv}^{(t)})后,便可以计算 Var(a Y_{cv}^{(t)} - b Y_{cv}^{(c)})=a^2Var(Y_{cv}^{(t)})+b^2Var(Y_{cv}^{(c)})

[10]:Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data见,2.3semi-parametric method,2.2parametric method(ANCOVA)的问题是:使用了线性模型,且要求Covariate包含所有的confounder(residual与输入无关的必要条件,如果有一些实验的treatment assignment非完全随机,明显受到一些因素的影响时,会比较麻烦,需要把这些因素全部纳入。

[11] U statistics
https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test以及
https://tech.ebayinc.com/engineering/significance-testing-for-ratio-metrics-in-experiments/

[12]A Decision Theoretic Approach to A/B Testing

[13]连续推断导致FDR提升,Always Valid Inference: Continuous Monitoring of
A/B Tests

[14]:Tests for Two Proportions

[15]多变量:Variance Reduction
Three Approaches to Control Variates 3.2 Multiple Control Variates

[16] 二分变量(比例)的test:### Hypothesis Testing for Means & Proportions

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,633评论 18 139
  • 算法技术解构 1、Python基础知识 (1)IPythonIPython的开发者吸收了标准解释器的基本概念,在此...
    shenciyou阅读 5,281评论 0 10
  • 【假设检验分6步】——《统计学(第6版)贾俊平》 一、原假设h0和备择假设h11、原假设h0和备择假设h12、确定...
    dataTONG阅读 5,569评论 0 16
  • 注明:本文是对一篇整理166篇文献的综述翻译,其中对应文献地址都已附上为方便点击查看学习。查看有的文献可能需要科学...
    leon_kbl阅读 4,299评论 0 6
  • 渐变的面目拼图要我怎么拼? 我是疲乏了还是投降了? 不是不允许自己坠落, 我没有滴水不进的保护膜。 就是害怕变得面...
    闷热当乘凉阅读 4,238评论 0 13