沉默的数据
大数据时代,似乎做什么事情都要"听听数据的",因为数据不会说假话,所以无论产品发展,策略调整,都跟着数据走准没错。毕竟数据是用户真实反馈嘛。
数据确实不会说假话,但是同样,数据也不会说话。经过数据仓库的整理,数据不再是杂乱无章的,但是整整齐齐的数据也只是数据,不是知识。面对这些数据,这些仓库表,这时候就需要有人来解读其中的内容,帮助数据把信息表达出来。这种人,是数据分析师,这种行为,就叫数据分析。
分析师:数据的代言人。
简单说一下,理论上来说,分析师是要通过数据中表现的用户的反馈,得知产品好坏是否受欢迎,同时对产品提出优化调整策略(包括产品本身和推荐策略)。
设想是好的,实际上并没有这样,很多公司都有这个职位,但是部分数据分析师很尴尬,只是成了提数,做报表的"大表哥""大表姐"。对优化调整完全没有话语权。因为传统的软件开发中,产品/研发/测试这三种角色就像游戏中的战法牧组合一样,稳定牢固,新加入的分析师呢?根据数据反馈对产品提出优化方法,算产品么?自己写sql,Java,python计算,算研发么?自己验证数据保证数据准确性,算测试么?都不算,当然,更算不上是领导。在团队里找好定位,发挥分析师作用,和基础技能一样重要。
数据分析-定义
数据分析本质上是统计,对数据进行详细的研究,提取出有意义的信息,概括总结形成结论的过程。是对历史的总结。
数据分析-方法
excel/python/r/mr/spark等工具。
本文对数据分析的方法不做详细的解说,可以参考《深入浅出数据分析》等书详细了解。
数据分析-内容
分析有三宝:主题结论数据好。
做分析之前,一定要知道此次分析的目的,不能无头苍蝇一般乱撞。有主题有结论有数据论证,才是一次好的分析。
产品追求的核心是用户,用户数这个简单的指标,可以清楚的反应产品的使用情况。但是不能仅仅关注用户量这些指标(新增/活跃/留存/流失等),还要关注用户的行为,随着产品形态的不同,具体关注的又不同。比如网约车,关注的是人的打车频率,车型的选择,行程范围;feed/短视频,关注的是用户的使用时长;电商,关注的是用户的GMV/行为路径。不同产品有针对的设定指标进行分析,才能更好的体现用户对产品的使用情况,才能对产品提出有意义的优化策略。
多数的时候,分析出来的结果会与基本认知相符合,不会每次分析都给人"眼前一亮"的感觉,这是正常的。
数据分析-可视化
分析出的结果怎么展示出来,也是非常重要的一步。可视化的阶段:
- 黑底白字的控制台展示
这个阶段就根本称不上可视化,不要给别人看了,还不如把数据整理到excel里对外提供。曾记得当初第一次给公司高层展示,黑底白字控制台,敲两个命令,出来几行数,领导看的一脸懵,这种情况,明明10分的工作,估计只能得5分。 - 页面表格
把命令行展示的数据,在页面上用表格表现出来,只能说算一种"美化",最多增加下载功能。还是对数据的直接展示。 - 页面图表
从折线图/饼图/柱状图开始,才是对数据的直观展示。对不同的产品形态用不同的展示方法。地图热点/热力图来表示网约车的使用情况。漏斗图来表示转化情况,等等。
通过多种多样的图表,让人一眼能看到数据的情况。再用表格来进行详细数据描述,组合拳出击,达到最好的效果。
数据分析-报告
通过分析得到的结果,即便是图表展示,往往也会让人不太清楚,需要分析师进行解读。所以分析师的又一个核心技能:写数据报告。
面对的观众不同,数据报告又分为微观和宏观两种。
- 微观
对内,为产品优化而做的报告。
在新功能(包括产品界面布局,推荐策略等)准备上线之前,ab test的时候,根据用户使用的反馈数据,产出分析报告,给出此次改动是否达到预期,可否上线的结论。策略有很多种类,并且更新很快,所以这时候应该能做到自动给出简单的数据报告的能力。 - 宏观
对外,让用户知道产品功能以外的内容。
这个不是必须的,但是是一种很好的宣传:产品对现实世界的影响。比如滴滴打车对拥堵的改善/碳排放的减少有什么贡献(2015年中国智能出行大数据报告),短视频对区域旅游/网红电商带来的影响(目前还没看到类似的报告),行业报告(2016微博短视频行业报告)。等等。
报告书写,就像写作文一样,要有条理,如果包含多个主题,需要用线索穿起来,让人流畅阅读。
- 主题
有针对才能进行更好的分析,得到结论。如"用户访问情况概览","登陆按钮更换位置对用户登陆的影响","留存与生命周期","各渠道用户质量分析报告"等。 - 统计周期
标明此次分析统计周期。使用数据范围。 - 结论
通过分析得到了哪些结论,按照一定顺序写下来。 - 数据验证
对给出的结论,一一加以验证。 - 建议
改进建议/下次分析计划。
数据分析-问题
不要被数据蒙蔽住眼睛,不要迷信算法。
在数据分析中,会遇到各种各样的问题,导致分析结果并不能反应真实的使用情况。下面分别介绍一下分析中可能遇到的误区。
- 幸存者偏差(Survivorship bias)
是一种常见的逻辑谬误(“谬误”而不是“偏差”)。指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
在二战的时候,军队检查战斗返航的飞机时发现,机翼中弹情况很多,机身中弹情况很少,就认为飞机机翼更容易中弹,开始加固机翼。实际是这样么?不是,因为机身中弹的很多飞机都没有安全返回己方机场。
现实生活中也有。在用户主动参与的活动中非常常见。比如appsotre里面对产品的评价,有一部分人(比如我)就从来没在里面评价过。我公司楼下对面有个徽菜饭店,极其差,但是在大众点评上面评分还是三分多,有一些是刷单的,还有一些吃一次不好吃就不再来,也不会在点评上打分。这时候如果单纯的从评分来看饭店好坏,很可能就是错的。
想要避免幸存者偏差,就一定要清楚,自己拿到的数据是否能代表全部用户,如果不能,它代表的是哪些用户。弄清楚这个的话,就不会掉到这个坑了。 - 辛普森悖论
当人们尝试探究两种变量(比如性别与转化率)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
比如公司有两款产品A和B,想知道是更受男生欢迎还是更受女生用户欢迎。从下面的表格中可以看到,单独看AB两款产品,女生的转化率都小于男生,可以认为两个产品都更受男生欢迎。
但是综合两个产品看,女生的转化率又高于男生,又可以说女生更喜欢公司产品。居然得到两个相违背的结论。
这是为什么呢?从数据可以看到,两款产品的总转化率相差比较大,男女分布又非常不平均,这样简单的将两组数据相加汇总,得到的结果不能反应真实的情况。
如何避免辛普森悖论呢,在做整体分析的时候,要考虑不同产品的权重,做好降权,以一定的系数去消除以分组资料基数差异所造成的影响,才能得到一个正确的结论。
产品 | 女生新用户 | 女生转化数 | 女生转化率 | 男生新用户 | 男生转化数 | 男生转化率 | 总新用户 | 总转化数 | 总转化率 |
---|---|---|---|---|---|---|---|---|---|
A | 1000 | 300 | 30.00% | 50 | 48 | 96.00% | 1050 | 348 | 33.14% |
B | 10 | 1 | 10.00% | 1000 | 110 | 11.00% | 1010 | 111 | 10.99% |
总计 | 1010 | 301 | 29.80% | 1050 | 158 | 15.05% | 2060 | 459 | 22.28% |
小结
数据分析的目的是把数据中的知识提炼并表达出来,温故而知新。
作为分析师,要明确自己要分析什么,关注哪些指标,明白指标的定义以及计算规则,同时关注产品改动,给出正确及时的分析结论。
给出清晰易理解的数据报告,是数据分析的意义以及分析师的责任。
欢迎关注
攻城锤的数据仓库