数据分析方法一般有常规分析、统计模型分析、自建模型分析。这三种分析思路,基本能解决大部分分析需求,并根据分析需求固化为数据产品。
- 常规分析
常规分析经常会用到同环比分析法和ABC分析法,即分析对比趋势和分析占比情况。
同环比分析应用到数据产品中常见的有业务周、月、日报等,例如,拿很多互联网公司都关注的核心指标DAU(日活跃用户数),周报里一般都会对比DAU的周环比变化,如果上涨或者下跌的比较大的话,就要进一步查找分析业务原因。
- 同比:某个周期的时段与上一个周期的相同时段比较,如今年的6月比去年的月,本周的周一比上周的周一等等。同比增长率=(本期数-同期数)/同期数×100%。
- 环比:某个时段与其上一个时长相等的时段做比较,比如本周环比上周等等。环比增长率=(本期数-上期数)/上期数×100%。
-
ABC分析法:一般是以某一指标为对象,进行数量分析,以该指标各维度数据与总体数据的比重为依据,按照比例大小顺序排列,并按照一定的比重或累计比重标准,将各组成部分分为ABC三类。
- 统计模型分析
当掌握了很大的数据量,希望在数据中挖掘出更多信息的时候,一般都可以应用成熟的模型进行比较深入的分析,例如,经常会面对如下的业务场景:
- 预测产品在未来一年内的日活用户数会按什么趋势发展,预估DAU;
- 上线了某个营销活动,预估活动效果怎么样,用户参与度情况;
- 对现有用户进行细分,到底哪一类用户才是目标用户群;
- 一些用户购买了很多商品后,哪些商品同时被购买的几率高。
1)回归分析:可以理解成几个自变量通过加减乘除或者比较复杂的运算得出因变量。现在常用的回归分析主要有线性和非线性回归、时间序列等。
2)聚类分析:细分市场、细分用户群里都属于聚类问题,这样更方便了解用户的具体特征,从而针对性的做一些营销等,常见的聚类分析一般有K均值聚类、分布估计聚类等。
关于聚类分析,最常用的就是对用户进行分类,首先,要选取聚类变量,要尽量使用对产品使用行为有影响的变量,但是还是要注意这些变量要在不同研究对象上有明显差异,这些变量之间又不存在高度相关,例如,年龄、性别、学历等。然后,把变量对应的数据输入到模型中,选择一个合适的分类数目,一般会选拐点附近的几个类别作为分类数目,如下图3。接下来,要观察各类别用户在各变量上的表现,找出不同类别用户区别去其他用户的重要特征,选取最明显的几个特征,最后进行聚类处理。
3)关联分析:做关联分析一般要理解频繁项集和关联规则两个概念,频繁项集是经常出现在一块儿的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。
- 自建模型分析
当以上两种分析方法都不能满足业务的分析需求时,这时候就需要自建模型进行分析。