作者 | lpl
来源 | lpl (公众号:数据分析从0到1)
前言
对比分析是数据分析中最实用且复杂性小的分析方法之一,大多是用来对比运营前后的效果、波动数据是否是异常、行业对比、自己往期数据对比等。
对比分析的使用
对于数据分析我们一般会有以下步骤:
- 找到问题
- 做出假设
- 提取数据
- 明确方法
- 验证分析
- 得到结论
- 给出建议
对比分析的核心三步骤是:
- 比什么 (找到问题)
- 如何比 (做出假设)
- 跟谁比 (提取数据、验证分析)
如我们现在正有个活动是,参与过A活动的用户再次参与B活动有奖品送出,每个用户只能参加一次。
但是有一天运营小马找我说:我们一号到五号的数据波动还是正常,为什么到6号和7号数据下降的那么厉害?是不是你统计数据逻辑改了?或者后端逻辑改了,还是打点有问题,你帮我看一下。
我想着,话都被你说完了,干脆你来弄的了(哈哈,开玩笑的),因为这个是一个小的活动,不涉及复杂的业务逻辑,所以单人负责就可以,不需要多人开会头脑风暴等。
1. 找到问题
从上面我们可以确定到问题:参与活动的人数突然下降。
2. 做出假设
一般按照难度将假设进行排列,可能出现的问题有:
- 运营修改了业务逻辑,数据端没有更新。
- 数据逻辑有问题。
- 服务器或者数据源那两天有问题,导致数据量不对。
- 那两天的数据波动可能是正常。
- 参与活动用户资源不够。
- ............
3. 沟通问题并提取数据
数据分析其实有一大半时间在于沟通,通过沟通我们可以了解具体的业务逻辑,我们可以知道业务中哪些变化,从而可以针对这些做出假设验证。
按照第二步的假设,我沟通了技术人员和运营人员,对方表示没有进行改动,然后在沟通的过程中对业务进一步有了了解,再次检查/优化自己的数据统计逻辑,这里非提取数据能排查的问题已经排查完毕了,剩下的就需要提取不同的数据来进行假设验证。
通过不同假设条件,提取了不同维度的数据:
- 对于服务器导致数据下降,我提取了问题数据日期前后几天的日志数据。
- 对于活动数据,上面只展示了一周的数据,我提取了3~5周的数据,来扩大数据范围。
- 对于参与活动资源假设,提取了A活动参与总人数,到现在参与B活动每天剩余资源数据。
4. 明确方法并验证分析
通过以上问题,我们可以看到,不确定的问题多数是“对比”一下可以得出结论,所以我们选择“对比分析”。
我们对比了问题数据日期前后几天日志数据,发现数据总量并没有大的波动,所以排除这个问题。
然后我们对比活动周数据发现,每一周的变化波动都差不多,所以数据波动是正常的。这里我们就是可以通过对比来进行一个问题的定位,从而来判断是什么问题。
对比分析包含哪些内容
比较对象
对比分析比较的对象一般有4种:
- 绝对值比较
- 平均值比较
- 比例值比较
- 贡献值比较
在上面的案例中,我们使用的就是绝对值的比较方式,绝对值比较可以是阅读数、浏览数、活跃数等,使用绝对值比较如果你只看绝对值本身的数值,可能会出现你对这样业务的判断偏差,比如你比较最近一周每天的销售额,发现每天的波动都慢慢的增长,但是你单纯比较这个数字是没有意义的,你需要结合你的目标和成本来分析这个值的意义,如果你的销售额小于目标或者成本大于销售额,那么你这里就大概率有问题的。所以有的数据对比分析使用绝对值需要和业务场景挂钩。
平均值比较是为整体数据之间的比较,排除了个别数据凸显的问题。
比例值比较一般是活跃占比、转化率、复购率比较等。
贡献值比较多数是自己平台指定计算规则来比较不同用户特征群体的贡献值,多数用来精细化运营。
时间对比
从时间上比较,最常用的是环比、同比。
环比是与当前时间范围相邻的上一个时间范围对比,比如11月和10月比较。
环比适合分析短期内具备连续性数据的业务。
同比是与上一个时间的同期数据比较,比如今年11月比去年11月。
同比更适合去观察长期的数据集。
行业对比
行业对比一般用到的场景是内部假设分析已经全部验证完毕但是没有发现问题,这个时候就需要看一下行业,比如对于货车行业,从数据上看在某个时间后国三车活跃人数下降比例很大,然后从数据上看找不到任何问题,这个时候就分析行业,发现一些地区施行了国三限行政策。
总结
对比分析我们介绍了内部对比,行业对比,时间对比,通过这几种对比方式,在业务中能够快速的定位到问题,并提出合理的解决方案。