002|正态分布、对数正态分布和幂律分布

正态分布

也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种,常常应用于质量管理控制:为了控制实验中的测量或实际误差,常以作为上、下警戒值,以作为上、下控制值,这样做的依据是:正常情况下测量或实验误差服从正态分布。

并不是所有随机事件都满足正态分布。想要学会判断什么样的事件满足正态分布,必须有一点数学感,需要了解“中心极限定理”。中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布 ——

第一,它是由多个 —— 至少 20 个 —— 随机变量*相加*的结果;

第二,这众多的随机变量是互相“独立”的;

第三,每个随机变量的方差都只有有限大;

第四,每个随机变量对结果都要有一定的贡献,否则如果只是其中几个起到决定性的作用,那也不能算“多”。

简单地说,关键要求有两个:“相加”和“独立” —— 凡是多个独立随机变量相加的事件,结果就会是正态分布 。

生物学家认为人的身高是由至少 180 个基因共同决定的。有的决定你的小腿有多长,有的决定你的脖子有多长 —— 而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较互相独立的。所以身高满足正态分布。

正态分布能给人充分的掌控感。每个案例相差都不会很大,通常翻不了天。

正态分布示意图

回到正态分布的两个条件,独立和相加。 (凡是多个独立随机变量相加的事件,结果就会是正态分布。)如果局面不满足这两个条件,结果会是怎样的呢?那就得做好准备迎接极端事件了。

对数正态分布

如果一个事件的结果不是由独立随机事件相加、而是由相乘决定的,它的分布将是“对数正态分布”。这个分布的形状就不是对称的钟形了,而是像下面这样 —— 

对数正态分布示意图

举例:

公司年底涨工资。因为A这一年业绩更突出,所以涨薪20%,B表现一般,所以B没有涨薪。如果A原来薪资就比B高,那两者的差距会越来越大;如果原来A没有B高,那涨薪后两者的差距会缩小。但是前者的增加比后者的缩小要大,所以整体来说大家的薪资差距是拉大了。这个我们就把它叫做对数正态分布。

但是请注意,以上例子仍然假设每个随机变量的作用是互相独立的 —— 即AB今年能做出更好的业绩,跟他去年的工资没关系。而如果我们认为员工工资代表了能力,那么工资越高的人就越有可能做出好业绩,那结果就不会是对数正态分布了,而是比这还要容易出极端事件的“幂率分布”。

幂率分布

幂率分布的“长尾”,比对数正态分布更长 —— 

Power Law Distribution

这意味着幂率分布中会有大量的极端事件。

幂率分布是*不独立*的随机变量作用的结果。科学家找到了很多个能带来幂率分布的模型,咱们这里说其中最常见的两个。

第一个模型是“马太效应”。比如你去书店买书,那么多本书选哪本呢?你会优先关注那些上了排行榜的“畅销书”。这是人之常情,但是这对那些没上榜的书是不公平的 —— 这等于说越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。这就成了一个富者愈富的局面。幂率分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。而这一切都是因为你做决定的时候是在模仿别人。你看到别人都买这本书,所以你才关注它。你的买书行为不是独立的。

另外,如一个城市的GDP。GDP越高,表明经济发展越好,那就能吸引越多人才,人才越多,经济发展商业创新也会越多,城市能发展越好,表现在GDP上也越高。

另一种幂率分布模型来自于复杂系统的“自组织”现象。实际上,幂率分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。在自然界与日常生活中,包括地震规模大小的分布(古登堡-里希特定律)、月球表面上月坑直径的分布、行星间碎片大小的分布、太阳耀斑强度的分布、人类语言中单词频率的分布、大多数国家姓氏的分布、科学家撰写论文数的分布、论文被应用的次数分布、网页被点击次数的分布、书籍及唱片的销售册数或张数的分布、每类生物中物种数的分布、深圳电影所获得奥斯卡奖项的分布等,都是典型的幂率分布。

总而言之,如果这个事件代表多个独立随机变量之和,它就满足正态分布,你不用担心会有什么极端的情况发生。如果一个事件是独立随机变量的乘积,那就是对数正态分布,其中会有一些比较极端、但不是那么极端的事情发生。而如果一个事件中的随机变量不是互相独立的,有互相模仿或者达成了紧密的关联,那你就必须做好应对极端情况的准备。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容

  • 随机变量是根据偶然性取值的变量。我们在谈到随机变量时,通常是以“概率分布”的形式来描述他们。也即:随机变量落在每一...
    小狸投资阅读 5,351评论 1 7
  • 这一年半的时间对幂律分布的研究比较多。最近正好看到万维钢解读《模型思考者》,系统的讲解了三种特别常用的统计模型,分...
    深度思考er阅读 604评论 0 1
  • 1、在Python2中input() 函数与raw_input()函数在Python3中已经优化合并了!在Pyth...
    HuiningBinla阅读 183评论 0 0
  • 俗话说三月茵陈四月蒿(此处月份为阳历),白蒿学名茵陈,可是一味难得的中药,越来越重视养生的人们在这个春天热情...
    青浅_33阅读 717评论 3 6
  • 情人节将至,单身的第三十个情人节,不曾与我相关!每当到这一天总会自觉屏蔽这一天的各种秀!有羡慕有不屑! 那个姑娘不...
    榆木糖阅读 285评论 0 2