A/B text 实例(过程)

A/B 测试项目

实验概述:免费试用筛选器

在本次实验时,课程目前在课程概览页面上有两个选项:“开始免费试用”和“访问课程资料”。如果学生点击“开始免费试用”,他们将被要求输入他们的信用卡信息,然后他们将参加免费试用课程的付费版本。14天后,除非他们先取消,否则将自动收费。如果学生点击“访问课程资料”,他们将能够免费观看视频并参加测验,但他们不会获得辅导支持或经过验证的证书,他们也不会提交最终项目以获得反馈。

在实验中,测试了一个变化,如果学生点击“开始免费试用”,他们被问到他们有多少时间可以投入课程。如果学生每周表示5小时或更长时间,他们将像往常一样通过结帐流程进行。如果他们每周表示少于5小时,则会显示一条消息,指出Udacity课程通常需要更多的时间才能成功完成,并且建议学生可能希望免费访问课程材料。在这一点上,学生可以选择继续参加免费试用,或免费使用访问课程材料。

我们的假设是,这可能会为学生预先设定更明确的预期,从而减少因为时间不够而离开免费试用的失意学生的数量- 这不会显著减少学生继续超过免费试用并最终完成课程的数量。如果这个假设成立,可以改善整体学生体验,并提高教练支持有可能完成课程的学生的能力。

转移单位是一个cookie,但如果学生参加了免费试用,那么他们将从该用户id开始跟踪。相同的用户ID不能参加免费试用两次。对于未注册的用户,即使他们在访问课程概览页面时已登录,他们的用户ID也不会在实验中进行跟踪。

试验设计

指标选择

Number of cookies:That is, number of unique cookies to view the course overview page. (dmin=3000)

Number of user-ids:That is, number of users who enroll in the free trial. (dmin=50)

Number of clicks: That is, number of unique cookies to click the "Start free trial" button (which happens before the free trial screener is trigger). (dmin=240)

Click-through-probability:That is, number of unique cookies to click the "Start free trial" button divided by number of unique cookies to view the course overview page. (dmin=0.01)

Gross conversion: That is, number of user-ids to complete checkout and enroll in the free trial divided by number of unique cookies to click the "Start free trial" button. (dmin= 0.01)

Retention: That is, number of user-ids to remain enrolled past the 14-day boundary (and thus make at least one payment) divided by number of user-ids to complete checkout. (dmin=0.01)

Net conversion: That is, number of user-ids to remain enrolled past the 14-day boundary (and thus make at least one payment) divided by the number of unique cookies to click the "Start free trial" button. (dmin= 0.0075)

列出你将在项目中使用的不变指标和评估指标。

Invariant Metrics:Number of cookies,Number of clicks,Click-through-probability
Evaluation Metrics:Gross conversion,Retention(剔除),Net conversion

对于每个指标,解释你为什么使用或不使用它作为不变指标或评估指标。此外,说明你期望从评估指标中获得什么样的试验结果。

测量标准偏差

列出你的每个评估指标的标准偏差。

对于每个Evaluation Metrics,计算标准偏差SD。条件当Number of cookies = 5000 pageview时。(使用的不是实验数据,而是基准数据)
根据基准数据,SD=SQRT( P-pool*(1-P-pool)/N )

对于每个评估指标,说明你是否认为分析估计与经验变异是类似还是不同(如果不同,在时间允许的情况下将有必要进行经验估计)。简要说明每个情况的理由。

规模

样本数量和功效

说明你是否会在分析阶段使用Bonferroni校正,并给出实验正确设计所需的页面浏览量。
利用样本计算器,根据给定的α = 0.05,β=0.2,dmin,BCR(基准数据), 算得是unit of analysis中分母的数量,eg.( net conversion, BCR=0.1093, dmin=0.01)
no use of Bonferroni Correction, because the three evaluation metrics are likely covariant.
得出 27411,需要除以点击概率0.08再乘以2 总样本数685275。由于Retention中unit of dividend跟 unit of analysis 不一致,sd异常大于另外两个指标,导致所需pageview过高在计算duration时会出现duration太长不适合实验,因此剔除此指标。总样本数为满足所有指标中最大的需求


持续时间和暴光比例

说明你会将多少百分比的页面流量转入此试验,以及鉴于此条件,你需要多少天来运行试验。

说明你选择所转移流量部分的原因。你认为此试验对优达学城来说有多大风险?

因为此项实验风险很低,fraction of traffic exposed = 1,duration = 685275/ 40000(pre day)≈18取整

试验分析

合理性检查(Sanity Check)

对于每个不变指标,对你在95%置信区间下期望观察到的值、实际观察的值及指标是否通过合理性检查给出结论。
此处用到实验数据,每列的含义是:
综合浏览量: 当天查看课程概览页面的唯一Cookie数量。
点击次数:当天点击课程概览页面的唯一Cookie数量。
注册:当天免费试用中注册的用户ID数量。
付款: 在当天注册的用户ID的数量,以保持注册14天,从而进行付款。(请注意,此栏的日期是开始日期,即注册日期,而不是付款日期,付款在14天后发生,因此,注册和付款的跟踪时间缩短了14天比其他栏。)

实验中不变指标是否合理,对于Number of cookies,Number of clicks,对照组实验组随机分布,满足P=0.5,可以用SD=SQRT( P*(1-P) / (Ncon + Nexp)), Margin of error =SD*Z(1.96), P就是CI的中心,加减M得出CI边界,再计算Pcon观察是否在CI中。

对于Click-through-probability,计算Ppool, SD=SQRT( Ppool*(1-Ppool) / (1/Ncon + 1/Nexp)), CI中心是diff=0,观察实际diff是否在CI中。

对于任何未通过的合理性检查,根据每日数据解释你觉得最有可能的原因。在所有合理性检查通过前,不要开始其他分析工作。

结果分析

效应大小检验

对于每个评估指标,对试验和对照组之间的差异给出 95% 置信区间。说明每个指标是否具有统计和实际显著性。只计算Oct.11 - Nov 2的数据。
合并计算。Gross Conversion
Pooled Probability = ([Total Enrolments Control] + [Total Enrolments Experiment]) / [Total Clicks Control + Total Click Experiment]) = 0.2086
Pooled SE = Square root of: [Pooled Probability] * (1 - [Pooled Probability]) * (1 / [Total Clicks Control] + 1 / [Total Clicks Experiment])) = 0.0044
Control Gross Conversion = 0.218874689
Experiment Gross Conversion = 0.198319815
Margin of error = [Pooled SE] * 1.96 = 0.0086
D hat = -0.02055
Lower CI Bound: [D Hat] - [Margin of Error] = -0.0291
Upper CI Bound: [D Hat] + [Margin of Error] = -0.0120   
Statistic Significance, Practical Significance

Net Conversion, [-0.0116, 0.0019], No Statistic Significance, No Practical Significance

符号检验

对于每个评估指标,使用每日数据进行符号检验,然后报告符号检验的 p 值以及结果是否具有统计显著性。

网络计算器,P =0.5,because we assume there's no difference.
Gross, success-4, total-23, P-value=0.0026, two-tail      Statistic Significance
Net, success-10, total-23, P-value=0.6776, two-tail      No Statistic Significance


汇总

说明你是否使用了Bonferroni 校正,并解释原因。若效应大小假设检验和符号检验之间存在任何差异,描述差异并说明你认为导致差异的原因是什么。

No use of Bonferroni correction, since two metics have correlation, use Bonferroni will be too conservative.
Result same with Effect Size Test.


建议


后续试验


对你会开展的后续试验进行概括说明,你的假设会是什么,你将测量哪些指标,你的转移单位将是什么,以及做出这些选择的理由。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,332评论 0 10
  • 就这样,我们上完了最后一天的课。眨眼间,已经初三了,三年转瞬即逝。 我们还在还在彷徨懵懂中,中考渐渐逼近,我们没有...
    羊驼与Q阅读 477评论 0 1
  • 我听着故事 从万国朝贺到东亚病夫 我摸着母亲曲折的脉络 深刻而沉重 一个属于母亲的故事 每一次倾听,我都要将心脏安...
    风百陌阅读 204评论 0 3
  • 2017年10月29日,星期天。昨天没做完作业,从早上起来吃完饭就开始做作业,中午才做完,不认识字,我一边读题目一...
    爱笑的丫头_327b阅读 220评论 0 0
  • 前段时间三个月自己吃饭上班的生活让我更加清楚的去年一年里他为我付出了什么。不仅仅是可见的金钱更多的是心思,在...
    青柠儿wl阅读 422评论 0 2