[TOCE] 10 P1-C3-S2 Twyman 定律与实验的可信性

Trustworthy Online Controlled Experiments Part 1 Chap 3


可能影响实验内部有效的因素

内部有效性指的是实验本身正确与否, 并不涉及到将实验结论外推到其他情况。

违反 SUTVA

Stable Unit Treatment Value Assumption (SUTVA) : 实验对象的行为必须独立, 实验对象之间不能互相影响。

在以下情况下, SUTVA 可能会被违反:

  • 社交网络, 在这种环境中, 一个用户的行为会很容易影响到另外一个人。
  • 即时通讯工具(微信), 一对一的交流中, 用户也会互相影响。
  • 多人在线编辑工具(Google doc)
  • 双向市场环境 (淘宝,滴滴,京东,ebay,Airbnb) 一个产品降价会影响到另外一个产品。
  • 共享资源: CPU, Memory。 另外,如果 Control group 和 Treatment group 在一个机器上, 一个软件崩溃造成机器瘫痪也会影响到另外一台机器。

幸存者偏误

分析活跃一段时间(例如两个月)的用户的实验会引入生存偏差。一个著名的例子来自第二次世界大战,当时美国决定增加装甲轰炸机。美军记录了飞机遭受最大伤害的部位,军方自然想在飞机受伤最厉害的部位增加装甲。亚伯拉罕·瓦尔德(Abraham Wald)指出,这是添加装甲的最糟糕的方案。由于子弹孔几乎均匀分布,因此应在没有子弹孔的地方添加装甲,因为那些部位被击中的飞机很少能飞回来, 也就不会被检查到。( Denrell 2005,Dmitriev等人2016)。

意向性治疗(Intention-to-Treat)

在某些实验中,变体存在非随机损耗。例如,在医疗环境中,如果“治疗”中的患者有副作用,则可能会停止服用该药物。在在线世界中,你可能会为所有广告客户提供优化其广告的机会,但是只有一些广告客户选择进行建议的优化。如果仅分析那些实验参加者,会导致选择偏见,从而会夸大治疗效果。Intention-to-Treat 问题指的是:如果我们不去考察实验对象到底是否采用了Treatment ,那么我们比较的可能只是 “想要参与实验” 或者 “被安排参与实验” 的参实验者之间的差异。 我们需要确保, 在 治疗组中的人切切实实的获得了“治疗”。

Sample Ratio Mismatch (SRM) 实验样本不平衡

如果用户比例(或任何随机单位)不接近设计比例,则该实验将遭受“样本比例不匹配”(SRM)。例如,如果实验设计是一对一的比例(均等的控制和治疗),那么实验中用户实际比例的偏差可能预示着需要调试(请参阅第21章)。下面的例子。

如果实验设计的 Control 和 Treament 组的比率是 1, 那么如果当实际样本比例在 (0.99 , 1.01) 以外时,就要小心。 同时, 如果比例的 p-value 低于0.001 时, 就要停止实验。

"注释" 这里作者主要指的是实验人数无法预先设定的实验, 这里说的 “实验设计的 Control 和 Treament 组的比率是 1” 只是按照理论推导出来的。 如果是医药实验, Control 和 Treatment 都预先选好了就不会有这样的问题。 对于在线实验, 比如A , B两个网页, 研究者只能说预期两个页面访问量是 1:1 , 这个可能是从过往经验中得到的。

如先前所定义,p值意味者如果 Null 假设为真时,观察和当前情况一样极端或者更加极端的情况。如果实验设计是对两个变量均等地分配,那么通过设计,应该获得接近1.0的比率,即Null假设应该是正确的。因此,p值表示我们观察到的比率(或更极端的比率)与我们的实验系统的设计一致的概率。这项简单的测试可以确定实验中的许多问题,其中许多问题一开始看起来就很糟糕, 符合Twyman定律。以下是一些例子:

  • 网页重定向
    -实施A / Btest的一种非常常见且实用的办法是将“Treament” 组重定向到另一个页面。像许多想法一样,它简单,优雅且错误;几种不同的尝试表明,这始终会导致SRM。有几个原因:

    • 延时: 重定向过程可能需要数百毫秒, 这段延时将对用户体验造成巨大影响。
    • 爬虫: 不同的爬虫对重定向解释不同, 一些爬虫会以为重定向网页是新网页,然后进行重度爬取, 从而导致虚假访问上升。
    • 非对称: 有时候用户会把重定向网页直接收入收藏夹,或者推荐给朋友,这回造成非Treatment 用户也会产生影响(本来只有被重定向进入新网页的用户才会被统计), 从而污染实验。
      重定向会造成一些列问题, 需要从服务器端来对访问进行控制。如果做不到的花, 那么就需要让Control 和 Treatment 都使用重定向,以平衡影响。
  • 受损的实验工具
    点击跟踪通常是使用网络信标(1像素的GIF图片)来完成的,已知该信息是有损的(即不会记录用户所有的点击行为)。这通常不是问题,因为所有的损失都是相似的,但是有时候Treatment 会影响损失率,导致用户看起来并不是很活跃并导致SRM。另外,将网络信标放置在页面的其他区域时,会导致计时偏差。

  • 残留效应
    新的实验通常涉及新的代码,并且错误率往往更高。新实验通常会引起一些意想不到的严重问题,并为了快速修复错误而中止或继续运行。修复错误后,实验继续进行,但是一些用户已经受到影响。在某些情况下,这种残留效应可能会很严重并持续数月(Kohavi等,2012; Lu和Liu,2014)。这就是为什么要运行A / A测试(请参阅第19章), 并主动重新随机化用户很重要的原因,同时也要认识到在某些情况下重新随机化会破坏用户的一致性,因为某些用户一开始在Control 组,之后被分配到 Treatment 组,反之亦然。在LinkedIn上,对新版本的“您可能认识的人”算法进行了评估,结果证明该算法非常有用,可以增加用户访问量。当实验停止并重新开始时,先前实验产生了显着的残留效应,该效应足以创建SRM并使结果无效(Chen,Liu和Xu 2019)。
    浏览器cookie中的残留信息也可能会影响实验。以一个教育活动为例,该活动向“治疗”中的用户显示一条消息,但是为了避免给用户造成麻烦,该消息仅显示三次。这个方案使用浏览器cookie,该cookie计算消息显示的次数。如果实验重新开始,那么某些Treatment用户的cookie计数> 0,因此会看到消息,或者根本看不到消息,从而稀释了Treatment效果或造成了SRM(Chen et al.2019)。

  • 坏的哈希函数,或者随机化机制
    Zhao et al. (2016)描述了Yahoo!的 Treatment 任务是如何完成的!该实验使用Fowler-Noll-Vo散列函数,该函数可用于单层随机化,但是当将系统推广到重叠实验时, 该函数却无法在多个并发实验中正确分配用户. MD5等加密散列函数很好(Kohavi et al.2009), 但是比较慢; Microsoft使用 Jenkins Spooky Hash 这个非加密函数。

  • 治疗组的触发机制
    通常只选一部分用户进入实验。例如,只在某个国家(例如美国)触发用户。然后将这些用户随机分为多个组。如果根据随时间变化的属性进行触发,则必须确 Treatment 不会影响用于触发的属性。例如,假设一个电子邮件活动,该活动触发了三个月不活动的用户。如果活动有效,则这些用户将变为活动状态, 那么紧接着的实验就会被影响(一些潜在用户都已经被激活了)。

  • 时间因素
    这里用发送电子邮件的 A/B 测试举例。 比如一个实验, 使用不同的电子邮件正文, 然后希望看到人们的打开率如何。 一个长期跟踪发现邮件打开率会出现“聚团” 的情况, 后来发现, 为了实现的方便, 系统先发送 Control group 的邮件, 然后发送 Treatment group 的邮件。 这样就导致 Control group 的邮件在工作时间被发送, 而 Treatment group 的邮件在下班以后才被发现。

  • Data pipeline (数据管道)被 Treatment 影响
    MSN门户(www.msn.com)的“信息窗格”区域具有多个旋转的“幻灯片”和一个指示每个的点的页面滑动。MSN OEC的关键指标是每个用户的点击次数,表示用户参与度。团队进行了一项实验: 增加了信息窗格中的幻灯片数量,从12至16。

    image.png

初始结果显示该治疗的用户参与度显着降低,但该实验具有SRM:该比率为0.992而不是1.0。在每个组中有超过800,000个用户,这种比例的p值为0.0000007,这意味着,即使设计是针对相等的分组,这种分组的概率也是偶然发生的。调查发现,由于“治疗”中的用户参与度增加,因此,一些参与度最高的用户被归类为机器人(系统日常的Pipeline 中对机器人的过滤机制被触发),并从分析中删除。纠正此机器人过滤条件后,结果显示了相反的“治疗效果”:“治疗”中的用户参与度提高了3.3%!

机器人过滤是一个很严重的问题, 在美国50% 的访问量来自于机器人, 而在中国和俄罗斯,这一比例高达 90%。

SRM检查至关重要。如最后一个示例所示,即使很小的不平衡也会导致治疗效果的逆转。 SRM通常是由于极端用户而造成的,这些用户要么非常好(例如重度使用用户),要么非常糟糕(这些用户没有点击计数)。这表明即使人口差异看起来很小,也可能导致结果显着偏斜。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,640评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,254评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,011评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,755评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,774评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,610评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,352评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,257评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,717评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,894评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,021评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,735评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,354评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,936评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,054评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,224评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,974评论 2 355

推荐阅读更多精彩内容