浏览产品社区的时候,经常遇见有同学询问数据估算类的问题,比如对一个城市出租车、共享单车、停车位、加油站的数量进行估算。数据估算问题属于案例面试的经典内容,那么应该采用什么样的思路呢?
我的思路是选择供给侧或需求侧一个方向入手进行。供给侧一般属于直接测算,通过线下抽样,收集市面上的公司已投放区域的样本数据,并进行合理放大,用几个区域的数据来推算全市的数据;需求侧会偏向间接计算,需要我们结合一些人口、交通出行的数据报告得到信息,来计算市场规模。
举个例子,如何计算北京市内投放的共享单车的数量?
我从供给侧出发,一个分析的思路就是:定义评估有效指标,梳理业务流程 -> 目标是否有上级源 -> 如果没有则评估数据采集可行性 -> 选择抽样方式进行采集评估 -> 统计分析有效指标是否为所需 -> 根据统计指标给出结果或建议。
一个个步骤来看下。首先是定义评估有效指标,就是要明确我们要收集什么“数量”才是有意义的,直接统计全北京城的共享单车数量肯定是不可行的,需要选择某区域内某时间段的单车数量。而样本选择哪个时间段、选择哪个区域,则需要我们对单车业务进行理解和梳理。要调查北京哪个地段使用自行车的人数较为普遍,使用自行车的高峰期的时间段和大致的使用场景。具体来说,我认为共享单车大体对应三种需求,一是接驳轨道交通,二是接驳地面公交,三是五公里以内的短距离出行。针对前两种需求,我们可以选取了天安门、南锣鼓巷、西二旗、天通苑等地铁站,西直门、八王坟东等公交站,记录每天8:00~20:00共享单车的实际使用情况。第三种情况的样本可能就要选取社区、商业体等,比较复杂,这里就不展开了。
第2步是梳理业务,需要搞清楚样本区域的共享单车是怎么来的,用户上班骑来的?还是单车公司定点投放的?或者是其他来源渠道。梳理业务有助于我们后面选择合适的抽样方式。
第3步是看目标数据是否有上一级的来源,对于共享单车来说,上级源和业务是一样的。但如果问题是便利店商品数量,则便利店商品的上级源就是供货商。我们需要追溯到供货商这一级进行分析。
第4步就是选择合理的抽样方式进行采集评估。不同指标定义和业务会选择不同的抽样方式,就比如要采集某个时段某个区域的单车使用量,可以选择的方式有很多,比如统计8点-20点每小时的单车停放量,某个地铁闸口的人流量等。
第5步就是分析统计出来的数据指标是否为所需。统计出来的数据是小样,按照比例放大之后跟预计结果差多少,为什么会差这么多,是真的出乎预料还是统计的数据不真实又或是选取太小,小样数目不足则需要做多次不同采集点的采样。比如我们选择地铁站,既要有五环内的站点,又要有五环外的站点。要考虑换乘站,也要考虑非换乘站。在推算整体数据时,要考虑不同类型站点的占比分别是多少,这样能够让估算更接近实际情况。
最后一步就是利用抽样测算出来的大盘数据得出结论了,当然根据常识来看,共享单车的投放是供大于求的,否则也不会有共享单车堆积如山的报道了,所以我们也可以从需求侧入手计算一个结果,得到全市单车投放量的上下界。
再举个例子,我们如何估算北京市的出租车数量呢?
这次我们从需求侧出发,结合政府发布的人口数据报告和出租车司机的访谈调研来进行推算。
我们的思路是这样的:
1.查询当地常住人口数量,人口年龄分布数据,得到常出行人口总数
根据2018年北京市的人口数据报告,全市常住人口为2154.2万人。其中15~64岁的人口占比78%,得到城市常出行人口数为1680.2万人。
2.查询当地私家车保有量(北京市2018年的私家车保有量为479万辆),假设一户人家的用车人口为“2人/辆”,那么城市公共交通出行刚需人口= 城市常出行人口-私家车保有量x2 = 722.2万人
假设所有需要乘坐公共交通的人口,全部都去乘坐出租车出行,可以计算出一个城市在正常情况下,对出租车需求的极限数量,也就是一个城市当前出租车数量的最高上限。
但因为不可能所有人都去乘坐出租车,所以存在一个空乘率(2018年北京市空乘率为40%),这部分人选择步行、自行车、其他公共交通等等方式出门;另一部分,就是乘坐出租车的人口数量。
所以,每日实际打车人数 = 公共交通出行刚需人口 * (1-空乘率 ) = 722.2 * 60% = 433.3万人调研出租车司机,单车每日平均打表额度、日平均生意次数、每次平均载客数、平均空乘率
北京出租车司机日平均打表额度,我没有调研,按照每月实际5000元利润、利润率为30%反推每日打表额度500元。
日平均生意次数也需要调研,北京起步价13元,每趟平均打表额度为20--25元
5.实际打车人数/平均每次载客数=出租车实际派发次数
平均每趟载客数以2.5人/辆次为例,全市出租车每日派发总次数为173.3万辆次。
6.根据等式,实际派发次数x平均一趟生意打表额度=日平均打表额度x总出租车辆数,计算结果。
根据 173.3 * 20 = 500 * 总出租车辆数,得到北京市总出租车辆数为6.9万辆,而2018年的数据报告的结果北京市出租车数量为6.66万辆,resonable。