正态分布
也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种,常常应用于质量管理控制:为了控制实验中的测量或实际误差,常以作为上、下警戒值,以作为上、下控制值,这样做的依据是:正常情况下测量或实验误差服从正态分布。
并不是所有随机事件都满足正态分布。想要学会判断什么样的事件满足正态分布,必须有一点数学感,需要了解“中心极限定理”。中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布 ——
第一,它是由多个 —— 至少 20 个 —— 随机变量*相加*的结果;
第二,这众多的随机变量是互相“独立”的;
第三,每个随机变量的方差都只有有限大;
第四,每个随机变量对结果都要有一定的贡献,否则如果只是其中几个起到决定性的作用,那也不能算“多”。
简单地说,关键要求有两个:“相加”和“独立” —— 凡是多个独立随机变量相加的事件,结果就会是正态分布 。
生物学家认为人的身高是由至少 180 个基因共同决定的。有的决定你的小腿有多长,有的决定你的脖子有多长 —— 而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较互相独立的。所以身高满足正态分布。
正态分布能给人充分的掌控感。每个案例相差都不会很大,通常翻不了天。
回到正态分布的两个条件,独立和相加。 (凡是多个独立随机变量相加的事件,结果就会是正态分布。)如果局面不满足这两个条件,结果会是怎样的呢?那就得做好准备迎接极端事件了。
对数正态分布
如果一个事件的结果不是由独立随机事件相加、而是由相乘决定的,它的分布将是“对数正态分布”。这个分布的形状就不是对称的钟形了,而是像下面这样 ——
举例:
公司年底涨工资。因为A这一年业绩更突出,所以涨薪20%,B表现一般,所以B没有涨薪。如果A原来薪资就比B高,那两者的差距会越来越大;如果原来A没有B高,那涨薪后两者的差距会缩小。但是前者的增加比后者的缩小要大,所以整体来说大家的薪资差距是拉大了。这个我们就把它叫做对数正态分布。
但是请注意,以上例子仍然假设每个随机变量的作用是互相独立的 —— 即AB今年能做出更好的业绩,跟他去年的工资没关系。而如果我们认为员工工资代表了能力,那么工资越高的人就越有可能做出好业绩,那结果就不会是对数正态分布了,而是比这还要容易出极端事件的“幂率分布”。
幂率分布
幂率分布的“长尾”,比对数正态分布更长 ——
这意味着幂率分布中会有大量的极端事件。
幂率分布是*不独立*的随机变量作用的结果。科学家找到了很多个能带来幂率分布的模型,咱们这里说其中最常见的两个。
第一个模型是“马太效应”。比如你去书店买书,那么多本书选哪本呢?你会优先关注那些上了排行榜的“畅销书”。这是人之常情,但是这对那些没上榜的书是不公平的 —— 这等于说越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。这就成了一个富者愈富的局面。幂率分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。而这一切都是因为你做决定的时候是在模仿别人。你看到别人都买这本书,所以你才关注它。你的买书行为不是独立的。
另外,如一个城市的GDP。GDP越高,表明经济发展越好,那就能吸引越多人才,人才越多,经济发展商业创新也会越多,城市能发展越好,表现在GDP上也越高。
另一种幂率分布模型来自于复杂系统的“自组织”现象。实际上,幂率分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。在自然界与日常生活中,包括地震规模大小的分布(古登堡-里希特定律)、月球表面上月坑直径的分布、行星间碎片大小的分布、太阳耀斑强度的分布、人类语言中单词频率的分布、大多数国家姓氏的分布、科学家撰写论文数的分布、论文被应用的次数分布、网页被点击次数的分布、书籍及唱片的销售册数或张数的分布、每类生物中物种数的分布、深圳电影所获得奥斯卡奖项的分布等,都是典型的幂率分布。
总而言之,如果这个事件代表多个独立随机变量之和,它就满足正态分布,你不用担心会有什么极端的情况发生。如果一个事件是独立随机变量的乘积,那就是对数正态分布,其中会有一些比较极端、但不是那么极端的事情发生。而如果一个事件中的随机变量不是互相独立的,有互相模仿或者达成了紧密的关联,那你就必须做好应对极端情况的准备。