现在大家都在谈大数据,数据分析,机器学习,但是这些都是手段,决策才是我们的目的,要想发挥数据的价值,先看看你身边的工作中有哪些决策,再决定用什么样的数据,怎样用数据来改进他们,我们先看一个小例子:
有100人来找你借钱,每人借100块,他们都愿意一年后还你115块(因为跟隔壁老王家借,也要还这么多),现在问题来了,你借还是不借,借给谁?
既然赚的钱已经固定了,就是一年后最多赚1500块,总收入:(115-100)*100=1500元 ,那对你的决策最重要的就是:到底会有多少人不还钱,哪些人不还钱。
现在有个人说:我没法告诉你谁不还钱,但是我可以告诉你目前总体上不还钱人的比例。这个数据有用吗?
答案是:有用,因为你得到这个数据之后,可以根据这个数据做不同的决策:
- 如果这个比例高于15%,你可以不借钱出去,因为会有超过15个人不还钱,损失的钱多于1500元,不划算;
- 如果这个比例低于15%,你可以借,还有赚头;
现在这个人告诉你,应该10个人里会有1个人不还钱,比例如图所示:
那到底应该借给谁?应该都借出去。因为都借出去中90个会还钱,你可以收1350元的利息,10个人不还钱,赔1000元,最后赚350,如果只借给其中50个人,算下来你只能赚175元,借的人越多,赚的越多,最多赚350。
接下来又有人过来和你说:老兄,我通过过往数据分析,开发了一个预测模型,可告诉你哪些人不还,而且绝对准确,可以卖给你,你想买吗?
答案是:可以买,但是不能太贵。我们可以算一下,如果你卖了这个模型,而且知道了到底是哪10个人不还钱,如下图所示:
那你就会只会借给其他90个人钱,而不借给那不还钱的10个人,你最后赚到的钱是(115-100)* 90= 1350元,比原来最多赚350元时,多出1000元,如果这个模型的价格没有超过1000元,买来还是值得的。
但是现实没有那么完美,这个世界上没有完美的模型,但是不完美的模型也价值。
如果这个模型可以给出来它的判断, 但是它判定为坏人的里面只有7个是真正不还钱的,而另外它认为是好人的90个人里面,还是有3个会不还钱,这样的模型你会买吗?如果买,出多少钱比较划算?
那让我再来算一算,这个模型的效果如图所示:
根据这个模型,我们还是会借给模型判断为好的那90个人,这里面会有三个会不还钱,最终赚的钱是(115-100)87 - 3100 = 1005元,比原来最多赚350元还是多了655元,如果这个模型的价格不超过755元还是值得的。
通过这个故事,我想有几个点可以说明:
数据可以降低决策中的不确定性,从而提高决策的效果,例子中,从最开始时,完全不确定谁会不还钱,到最后,确切知道到底谁会不还钱,确定性越来越高,决策的效果也越来越好,数据的作用也就体现出来了。
数据的价值依赖于决策的问题,如果我有十万元,可以借给1000人,那这个模型卖一千块钱,那也值得买,数据的价值不是孤立。
不完美的数据也有价值,关键是如何量化这个价值,世界上没有完美的数据模型,但是有一部分模型是有用的,只要他能让你的决策变得更好,哪怕是小小的改进,对于一个足够重要的问题,也可以产生巨大的价值。