数据分析工具箱v1.6——根因分析

前些日子我的好哥们安琪姐扔给我一篇Adtributor的paper,尽管已经很久没有看算法,更久没有读paper;但出于对这位专业的数据科学家的致敬,我竟然看了还推导了一遍……

算法其实挺简单,属于看懂了之后就能实现出来。此文先简单介绍一下算法原理,然后搭建一个数据产品交互界面,并以脱敏后的真实业务数据来实践,最后探讨这种数据应用的困难与局限。

算法简介

Adtributor根因分析算法目标是针对多个因素影响下,快速找出影响广告收入的root-cause维度;但我们当然可以推广至任务多维分析业务场景下。算法的基本思想要点如下:

  • 只考虑单维度的作用,不考虑多维交叉的情况;即最后的root cause结果一定是某几个单独的维度,而不是多个维度交叉下的场景
  • 设定两个EP阈值:T_eep用于过滤掉单维度下低解释度的元素,T_EP用于控制维度元素集合的长度,限制低Surprise元素的加入
  • 以JS散度来计算一个元素的预测值和实际值的Surprise,而一个维度下所有EP大于T_eep的元素JS散度即作为该维度的Surprise
  • 最后挑选3个Surprise最大的维度,每个维度展现Surprise从大到小且累加后刚好超过T_EP的元素集合用于解释造成diff的root cause

算法伪代码如下:

伪代码

Foreach m ∈ M // Compute surprise for all measures
    Foreach Eij // all elements, all dimensions
        p = Fij(m)/F(m) // Equation 5
        q = Aij(m)/A(m) // Equation 6
        Sij(m) = DJS(p, q) // Equation 7
ExplanatorySet = {}
Foreach i ∈ D
    SortedE = Ei.SortDescend(Sij(m)) //Surprise
    Candidate = {}, Explains = 0, Surprise = 0
    Foreach Eij ∈ SortedE
        EP = (Aij(m) − Fij(m))/(A(m) − F(m))
        if (EP > TEEP ) // Occam’s razor
            Candidate.Add += Eij
            Surprise += Sij(m)
            Explains += EP
        if (Explains > TEP ) // explanatory power
            Candidate.Surprise = Surprise
            ExplanatorySet += Candidate
            break
//Sort Explanatoryset by Candidate.Surprise
Final = ExplanatorySet.SortDescend(Surprise)
Return Final.Take(3) // Top 3 most surprising

数据产品

数据处理

第一步,仍是上传数据——除了日期以外,10个维度交叉下的DAU数据。不过注意维度Group By和度量Sum一定要选,这个作为后续算法的输入。

聚合数据

根因分析

假如我们没有任何先验的业务知识情况下,该从哪个维度去拆解DAU的波动情况?这是Adtributor算法可以解答的。

归因分析页面中,一共有如下参数:

  • 基准日期范围:用来计算指标基准平均值
  • 对比日期范围:用来计算指标对比平均值
  • 日期字段:用来计算基准值和对比值
  • T_eep:Adtributor算法中的T_eep,默认值取paper里的0.1
  • T_EP:Adtributor算法中的T_EP,默认值取paper里的0.7

我们上传的原始数据是一个带日期的时序数据,系统根据基准日期范围和对比日期范围,拆分成2个子表,各自按日期聚合,计算对应周期内的指标平均值;然后按照所选择的维度,作全外连接,将各个维度粒度下的基准值merge在一起比较,便于算法计算。

比如我们将基准日期范围调成:2020-05-012020-05-10,基准值就是5月前10天的日均DAU;对比日期范围调成:2020-04-012020-04-30,对比值就是整个4月内的日均DAU。

根因分析

基于输入的参数,最后输出算法计算的结果:输出3个超过T_EP累计Surprise最大的维度,每个维度输出Suprise超过T_eep的元素组合。

从图中的输出可以得出以下的结论:

  • 影响DAU波动最大的因素依次是平台厂商渠道组
  • 尽管ios的EP较小,但Surprise更大,更值得关注
  • 另外两个维度同理

下钻分析

然而,这里如果我们加上了后验的业务知识,就会发现以上算法的结果并没有多少额外的insight:

  • 这3个维度都是常见的维度,而且输出的元素都是维度下占比较大的,本身EP较大;其实不需要算法,凭借着业务sense,也知道要拆这3个维度
  • 尤其是平台这个维度,一共才2个元素,都输出了,累计EP直接到1

所以尽管经过算法的计算,这3个维度的Surprise最大,但是这个结果本身并没有surprise。

不过没有关系,数据分析工具箱在数据处理那一步就支持筛选和聚合计算,所以我们可以切片继续下钻分析。

比如我们认为ios比android更值得关注,我们就限定平台为ios,算法重新算一遍,就会得出不同的结果:


ios下钻分析

影响IOS活跃用户波动的3个主要维度:

  • 兴趣标签:社会健康/医疗是2个最令人意外的标签,累计的EP约为120%(这里解释一下为什么EP能大于100%——当然也能小于0,因为EP的定义就是元素diff/维度diff;同一维度下,有的元素上涨,有的下跌;如果上涨或下跌的幅度超出维度总幅度,EP就会超过100%,以与反向变化的元素EP对冲)
  • 年龄段:30岁以上群体,变化最意外
  • 活跃度:中高活的用户群,变化最意外

当然,也许这3个维度仍然处于已知的业务常识中;那我们可以在数据处理中,自由添加/删除相关维度,然后算法重新计算。这里比如我们去掉年龄段、活跃度和性别的维度,并且限定安卓平台,得出结果如下:

安卓下钻分析

得出的结论又不一样,这里最重要的3个维度是:首启厂商渠道组

应用局限

以上是基于真实业务数据(敏感部分已打码,未打码部门为算法指标)进行分析的过程,整个过程和结果,看起来似乎有点用,又似乎没太明显的作用;那么局限在哪里?

算法局限

这个算法的假设及计算过程本身存在局限,它只考虑单维度的作用,不考虑多维度的联合作用;事实上,在真实业务场景中,一个复杂的综合指标,不可能只由各个维度独立影响。

另外,在每个维度下遍历元素时,根据surpise排序,一旦累计Suprise达到T_EP,即不再遍历,也可能会错过重要的元素。

业务知识

算法本身不具有业务属性,数据才有。所以这个算法,并没有去计算各维度之间相关性,没有考虑维度之间的组合作用;并不能告诉用户,原始数据里那一堆维度,应该把哪些输入进去。而对于最后的输出结果,算法本身也不可能知道,这个结果有没有意义,有没有额外的surprise或者insight——它只不过是一个计算结果,而参数一旦变化,计算结果就会变。

而这个算法本身不知道参数应该怎么选,所以归根结底,它不能起到直接给用户输出结论的作用,只能起来用户指定一个方向,输出一个细分方向,以验证猜想的作用。

另外,要想给出业务建议,数据只能起来间接作用——如果能建立知识图谱,把数据里各个维度值与业务场景和可能业务行为关联起来,比如并不只是简单给出华为用户活跃下降,能结合其他维度计算,归纳出可能的业务因素,比如渠道停投、push受限等具体场景,才能真正起来直接辅助业务决策的作用。

数据体系

归因算法的预期是从多维数据里找出影响指标波动最关键的维度,那么问题来了?影响指标的root cause维度就一定在你输入的多维数据里嘛?如果输入的是一堆无关紧要的维度,输出一定是没有意义的。

所以第一个问题,对于你所关心的业务指标,它可能受影响的因素有哪些?这些因素是不是都是可以量化的,可量化的影响因素是不是都在数据仓库里建设完善?如果不是,想做归因分析,自然是非常受限的。

综上,算法只是一个技术工具,甚至可以直接引入,本身不具备关键困难;核心的问题是:如何从数据的角度去理解业务?业务的变化能在多大程度上在数据上表征?是否具有完善的数据体系?数据体系在具体的业务场景下能覆盖多大程度的变化问题?数据体系之间的逻辑关键是否严密、可靠、便于分析使用,只有解决了这些问题,做出的东西才不只是不知道怎么应用的技术工具,而是真正能帮助业务的数据产品。


可实际情况往往是:

  • 业务上很多问题并不是可量化的,也不是数据能覆盖和解释的
  • 很难构建一套完整、严谨、闭环的数据分析模型,能细致地、具体地、可落地地反映业务,指导业务
  • 甚至连全面、严密、整洁、健壮、可靠的数据体系都很难有

这才是最难的,比推导、实现一个算法,开发几个页面难得多……

参考文献

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,368评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,941评论 2 374
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,369评论 0 326
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,848评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,719评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,505评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,904评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,528评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,819评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,848评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,652评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,468评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,912评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,095评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,389评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,906评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,120评论 2 339