为什么要学习统计学思维?
我们所面临的是不确定的世界,学习统计学思维可以帮助我们根据手上已有的信息对未来做出合理的预测,由此在当下根据分析做出合理的决策,在未来规避掉潜在的风险或者尽可能减少风险带来的损失,是对不确定性的较好的控制,给予我们做出决策比较好的指导方针。
「风险」是指造成损失的不确定性。关键点有两个,一个是损失,另外一个是不确定性。前者相反的就是收益,高风险必然伴随着高收益,否则在一个合理的市场当中没有人会去做这样只亏不损的事情,自然这样的事情连存在都不会存在。
记住一点:「风险」本身既不是概率也不是损失的后果,而是两者的乘积。
根据我们对相关风险的掌握程度和不同的应对方式,我们可以把风险分成四阶:
- 一阶风险,指的是我们可以通过频率推断出来的基础概率,比如飞机失事的概率,相亲成功的概率等等,这种风险只需要我们掌握了基础概率,计算出大概的期望水平,再做决策,做好应对方式即可,满足一阶风险的事件都是「意料之内的」。
- 二阶风险,指的是虽然我们通过一阶风险推断出了事情发生的概率或者数值,但是现实中真实发生的数值远远偏离该预期值的不确定性。这种事情并不是少见多怪,事实上这种事情几乎天天在眼前上演。虽然我们预测出一个事件的均值,但有趣的是,现实生活中的实际值往往很少落在均值上,更多的是不同程度的偏离。而二阶风险的管控就是实际值相对于预测值的偏离程度的概率的预测,使用「标准差」来衡量偏离程度和对应概率的大小。
- 三阶风险,这种风险往往是这样的情况,这件事在逻辑上讲得通,存在发生的可能性,但以前从来没有发生过,我们也无法推算出这件事发生的概率。比如说外星人明天会不会到访地球。这种情况下我们可以用贝叶斯推断。
- 四阶风险,这种风险是我们无论如何都无法想象出来的,自然也无法做好预防。比如恐龙无论如何都无法预料到小行星撞击地球的可能。这种情况下虽然无法预防,但是我们可以采取多元化的生存策略,让自己至少在危机真正到来的时候,人不至于一击致命。比如现在很多人采取的「斜杠青年」策略,让自己发展多个副业,这样在可能的经济萧条来临的时候,或者是裁员的时候不至于自己失去经济来源之一以后穷困潦倒。同时我们知天安命,可以采用斯多葛学派的理念让自己坦然接受命运。
一阶风险
一阶风险是指每个事情对应着发生损失的程度和概率大小,这种风险是4种风险里面最为简单和可以数学化的风险情况。对于一阶风险要考虑三件事:
- 事情发生的概率
- 发生事件后造成损伤的概率
- 对你来说损伤程度的大小
前两个衡量的是风险的可能性大小,后者衡量的造成的损失大小。比如以飞机失事为例子,首先发生的概率是很小的,大概是1千万分之一,但第二点就不那么乐观了,万一飞机失事后,造成损失的概率是很高的并且损伤程度也是不小。但多亏第一点事件概率小,因此总体的乘积作为风险的计算,仍是非常小的一个水平。
对于控制一阶风险,我们应对的策略有以下3点:
- 尽可能定量,并且颗粒度越小越好,而不是仅停留在定性水平。比如在发生的可能性大小「非常可能」,「可能」,「不太可能」等等这样的分级,就是属于定性水平,而每个人对于不同的定性都会有一个模糊的概率估计,这个模糊的概率估计如果不能放在明面上好好仔细确定,那么往往偏差是很大的。
- 了解各个事件的基准概率,基准概率往往是跨时空和不同人群的统计结果,具有客观的参考依据。
- 尽可能从外部的视角去审视概率。大多数人总是困在自己的特殊性不能自拔,有个「自己在平均水平以上」的心理错觉,如果能够合理运用第二点,每次决策之前都思考事件的基础概率,那么会更加客观。
二阶风险
往往我们计算出一个预料值,也就是期望值以后,真实发生的事件的值往往是围绕着这个值在左右波动的。一个比较常见的情况就是保险公司每年的理赔金额,虽然长期看来,总体上还是会均值回归,但是实际上每一年相比,波动都是不小的,如果听天由命,只按照暴力地求平均值来运营,那么碰上理赔金额超高的年份,往往会让保险公司倾家荡产。
因此,我们需要考虑发生极端情况的可能性大小,以下就是一个正态分布的图,横坐标代表偏离均值的大小,以及对应面积是所占总体的百分比。
深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%。
在三个标准差之内的比率基本上已经涵盖了所有的可能情况,注意是「基本上」,因为在3个以外还是存在一些极端值会有发生的可能性,但作为对策,我们只需要为99%的可能做好准备即可,真有极端情况发生,我们只需要坦然面对即可。
三阶风险
二阶风险的基础是大量随机事件重复发生,由此以频率来定概率, 从而推断下一次该重复事件发生的概率大小以及对应的程度。但是有一些遗憾的是,我们很多时候并不能停下来算一下置信区间以及查z表格关于事件发生的可能性。并且很多重要的决定并不是多次重复发生的,也没有先例可循。这种情况下就是三阶风险,你没有一个可以参考的基准概率。在这种情况下,我们还是有一些比没有更好的办法,这个就是「贝叶斯推断」,它可以帮我们摸着石头过河。贝叶斯推断的核心就是「先验概率」以及「证据更新」。
以现在很常见的感情问题作为例子的话,我们经常都在怀疑对方是否足够爱我,或者说是否有出轨。以下图为例子,假设说我们要推断的是「在已有证据链下不喜欢的概率」也就是,这里的B代表「不喜欢的事件」,这里的A代表「证据」或者说「条件」。其计算公式可以认为是在基础概率的基础上再更新判断的概率大小。
比如假设说,根据大样本统计调查发现,在情侣中有60%的女生是不喜欢对方,有40%是喜欢的,当然数据是我编的,但不妨碍计算。这里的60%就是「不喜欢」这个事件本身的先验概率,这个概率是还没有见到任何证据之前的一个统计概率。假设说有一个新的证据出现「你的女票有3天都不回复你的消息」,那么再根据这个已经有的证据分别找到「喜欢」和「不喜欢」这两个群体里面的概率分别是「30%」和「60%」,那么这里,不回微信的在总体(也就是喜欢和不喜欢的总和,图中两个小圆的总和)的人数占比为,,基础概率,因此代入公式
随着新证据的加入,我们还可以不断地更新贝叶斯公式里面的条件概率,使其越来越有把握。
在这里要注意:
- 先验概率很重要,很多时候正是先验概率没有统计的结果,因此更多是靠主观给出一个概率,但问题来了,每个人的主观概率都是不同的,比如一个最宽泛的问题,你相信人性本善还是人性本恶,就遇到新的事情之前,其实每个人都已经有了一个先入为主的价值观或者说概率判断,而不同的人面对同一件事情总能找出证明自己先入为主假设的一方面,因此贝叶斯估计告诉我们,先验概率基本上决定了我们的判断,而后面的证据充其量只是在为证明我们的假设加强或者削弱。
结论
学习统计学,虽然引入了不少数学计算,但是正如一开始所说,我们面临的是不确定性的世界,因此统计学所给予我们的就只是「有比没有更好」的理论和指导方针,面对不确定的世界,我们只能拥抱不确定性
「理性的分析和决策」与「最终的结果」并不是同一回事。有可能的情况就是你预料到了概率,也做好的一部分对策,但现实还是来了个极端情况的措手不及的结果,这种情况下不少人往往会回过头去质疑一开始自己的理性分析和决策,只有为数不多的人能够在下次类似的情况下坚持同样的理性分析而不是人云亦云。这种情况在中国的股市当中许多有「后见之明」的股民当中,「我早知道会涨,可惜……」。
来自王烁《30天认知训练营2020》笔记