在我们的生活中,你可能也注意到这样的现象:
微博上,大V拥有几千万的粉丝,但是普通人的关注度却寥寥无几。
我们平常使用的常用汉字也就两三千个,而中文汉字的总量是9万多个,换句话说,字典里的绝大多数字,你都不会用到。
还有,互联网也是如此,大多数的流量都是在流向那不多的几个大型公司,20%不到的公司控制了80%以上的信息资源。
你看,这些现象都有一个共同的特征,就是它的数据波动非常地大,少数点的数值特别高,大多数点的数值都很低,最大和最小点之间,可能相差好几个数量级。在统计学上,把这种情况叫做 “幂律分布”。
幂律分布的形状,是一个不断下降的曲线,从最高的峰值开始急速下降,后面拖了一个长长的尾巴。
世界是不公平的,真实世界给我们展示的,就是这样的幂律分布。
第一个为幂律分布命名的是经济学家帕累托。他发现,在19世纪的意大利,极少数的富人赚走了绝大部分的钱,大部分家庭的收入都很低。他的这一发现被后人称为 “帕累托法则”,也叫“二八定律”,也就是20%的人获得了80%的收入。
《新约.马太福音》 也这样说:“凡是少的,就连他所有的,也要夺过来。凡是多的,还要给他,叫他多多益善。”
因此,幂律分布也可以叫做“马太效应”,就是 “穷者越穷,富者越富” 。
生活中,我们都喜欢有威信的人,我们总是想和混的好的人交朋友,我们同样都喜欢去好的公司上班,比如腾讯,阿里,我们也喜欢明星,如果有一天发生了天底下最难以应对的混乱,我们希望寄人篱下,每个人都希望能依附最强者…等等这一切,归根结底都是在扩展一个网络,这种符合幂律分布的网络,又被称为“无标度网络”。
无标度网络的特点,是节点的中心度相差悬殊,无法用均值或方差等指标来反映分布的聚合或者离散程度,所以,我们把它叫做“无标度”。
真实世界的网络,大部分都是无标度网络,都遵循的是幂律分布。
在社交网络中,一个人的朋友越多,就越有可能认识新朋友。
在互联网上,一个短视频的点击量越高,就越容易被更多的人看到。
在学术界,一篇论文被引用的数量越多,就越有可能被其他的论文引用。
幂律分布产生的原因是优先连接。新加入到网络中的节点,更倾向与超级节点产生连接。静态地看,你会看到不公平,但是,动态地看,你会看到新的机会仍然在不断涌现。