前言
在日常工作中,数据同学经常会遇到以下问题
产品:为什么A页面的数据和B页面的数据对不上
数据:我去看看
一段时间后.....
数据:A页面数据是来自于AA表,计算逻辑是AAA,且没有包含AAA状态数据;而B页面是来自于BB表,计算逻辑完全不同。所以他们虽然名称相同,但其实数据并不一样。
产品:......
亦或是
数据:同一个指标在多个项目里用到,但A同学从A表取了数据;B同学从B表取了数据。我应该从哪个表取呢?如果这个指标的逻辑修改了,那这两个表应该怎么修改呢?新增一个指标,如何确认它的定义呢?
如果大家经常遇到上述类似问题,说明需要一个“数据字典”或者“指标库”来对指标的定义进行规范化和维护。
本文将会对指标进行初步介绍,并就如何规范指标进行深入讨论。
什么是指标
我们经常听到以下类似的对话:
”很多用户都对我们产品不满意。“
“感觉我们线下门店都没几个人了。”
“小程序感觉都没几个人看。”
这些不准确、具体的话,我们平时说说倒是无妨——毕竟具体的消息需要一定的成本。但是在工作中如果还是这个态度的话,恐怕就不太合适了。如果每个项目、活动连每天多少用户数、花多少钱赚多少钱都说不明白,那这个项目想来也没什么价值。
指标,就是对抗这种不确定的描述。
我们先来看百度百科中指标的定义
指标,是说明总体数量特征的概念及其数值的综合,故又称为综合指标。在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。
简单的说,指标是衡量目标的方法,它为了衡量某个东西而存在。我们常说的日活、成本、利润、收入等,都是指标。
将刚才的话运用指标重新编辑下:
“据问卷抽样统计,60%的用户都对我们产品持负面意见。”
“近一个月线下门店的客流量同比下降30%,环比下降40;每小时客流量甚至不到10人。”
“近一周小程序的DAU不到200”
是不是显得准确了很多?
下面我们进一步介绍指标的构成
指标的构成
我们可以简单的分为3类:自身属性、业务和技术。
属性
-
名称
这里主要是统一认知,同一个名称——同一个定义。
-
计量单位
即该指标的单位;用户量——人;订单金额——元(人民币)等类似。
-
所属类型
根据指标自身的特点,我们可以将其分为3种
基础指标:主要指不能再拆解的指标,通常表达业务实体原子量化属性的且不可再分的概念集合。如:订单数、订单总金额
复合指标:建立在基础指标之上,通过一定运算规则形成的计算指标集合。如:平均订单金额=订单总金额/订单数
-
派生指标:指基础指标或复合指标与维度成员、统计属性、管理属性等相结合产生的指标。如:近30天订单金额=用户在过去30天完成支付的订单总金额。
指标和维度的结合,在指标中会被称为派生指标;在维度中则会被称为行为维度。
基本所有指标都属于这三类。
-
度量类型
所有的指标都是度量,因此也必然符合度量的分类。
全可加度量:指可以在任何维度进行聚合的指标,例如访问数、订单数、订单金额等。
半可加度量:指可以根据某些维度进行聚合的指标,例如财务指标中的差额——它可以在除了时间维度以外的所有维度进行聚合。
-
非可加度量:指完全不可以根据任何维度聚合的指标,主要指各种比率。例如利润率、转化率、消费率等
非可加度量一般会在 OLAP 层或 BI 层进行处理。
业务
-
业务域:
高维度的业务划分方法,适用于特别庞大的业务系统,且业务板块之间的指标或业务重叠性较小。例如用车业务板块包含乘客端、司机端,电商业务板块包含商城、返利模块。
-
业务过程
可以概括为一个个不可拆分的行为事件,如下单、支付、评价等业务过程。一般来说一个过程只有一个时间。
-
可分析的维度
单纯的指标没有任何分析价值,必须与维度相结合;例如时间维度、产品维度、客户维度、供应商维度等
-
业务意义
在业务上它的意义是什么?它衡量了什么东西?
-
计算公式
业务 OR 逻辑上的计算方式,例如 利润=收入-成本
技术
-
产生系统
数据产生于哪个系统;例如订单金额来自订单系统,用户访问来自于埋点系统。
-
所在库表
数据所在的库、表及相关字段。
我们用DAU(日活跃用户数)来举一个例子
属性 | 值 |
---|---|
英文名 | DAU |
中文名 | 日活跃用户数 |
计量单位 | 人 |
所属类型 | 基础指标 |
度量类型 | 半可加度量 |
业务域 | 小程序 |
业务过程 | 用户启动小程序 |
可分析的维度 | 启动时间、用户、渠道等 |
业务意义 | 反应了小程序的运营情况 |
计算公式 | 根据用户ID去重 |
产生系统 | 埋点 |
所在库表 | XX.XX |
是不是顿时清晰了很多?
指标的特点
结果指标和过程指标
结果性指标,比如电商场景下的 GMV 或订单量,它通常是业务漏斗的底部,是一个不可更改的、后验性的指标。
过程性指标,可以简单理解为我到达这个结果之前经过的路径,以及通过这个路径去衡量转化好坏的过程,它是可干预的,而且通常是“用户行为”。
绝对指标和相对指标
绝对指标:是指统计量的绝对值,用于反映规模、大小的量级指标,如活跃用户数。
相对指标:是指统计量的比率值,用于反映程度、质量的健康水平指标,如人均使用时长相对指标是由绝对指标通过计算得来。
可以说绝对指标是相对指标的基础,而相对指标常常蕴含着更大的信息量,两者相辅而成才能更好的分析。
先导性指标和滞后性指标
这里主要根据是在用户的关键行为(例如用户下单支付)前还是后来判定。
虚荣指标
虚荣指标指的是看起来很吊但仔细想想并没有卵用的指标,例如总用户数——你知道总用户数又有什么用呢?你需要的是用户的新增、质量、活跃。而不是它总共多少人。
指标与相关概念
在 Data Science 中,指标有很多相关的定义,以下介绍部分:
指标和度量
指标是度量,但度量不全是指标。
在数据中,度量更多是相比维度的一个连续性数值;可以说我们常说的指标都是度量。
例如某个员工在今年剩余的年假天数,这毫无疑问是个度量,但要作为一个指标实在是有点牵强。
指标和维度
单一的指标没有任何意义,至少需要有一个维度以上的对比才能产生价值,且只有放在同一个维度下对比才有意义
考虑的维度越多,洞察就可能越深入
维度不是越多越好,分析维度最好控制在五维以内
通过求和或均值的方式聚合某一些维度,可达到降维分析的效果
指标与指标体系
一个问题,往往有很多方面,只用一个指标不能充分说明问题。这就需要一组相关联的指标来描述,这就是数据指标体系。笔者会在后续进行详细深入的介绍。