使用「多样性预测定理」预测球赛结果

前段时间,知乎网举办了世界杯比分预测大赛。

在两轮竞猜之中,我一个完全不懂球的人都稳定在前200名,在好友圈内一直保持第一,虽然最后没有拿到奖,但我构建的数学模型总还是有一些参考价值的。

首先,普及一个定理:

「多样性预测定理」(Diversity Prediction Theorem

看论文点这里(复制到浏览器中):

http://www.cscs.umich.edu/~spage/ONLINECOURSE/prediction.pdf

写成数学公式,就是这样:(这是一个恒等式)

equation.png

多样性预测定理
其中,Real,就是实际值,x的平均值作为预测值,我们可以看到,其意义就是:

误差之平方 = 每一项误差的平方平均值 - 方差

(按照其原话,便是:Collective Error = Average Individual Error − Prediction Diversity

大家可以用下面的 Mathematica 代码,或者 Wolfram Language 检验:

D\[Sigma]2[list_, R_] := 

With[{Alist = Total[list]/Length[list], n = Length[list]}, 1/n \!\(

\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]

\*SuperscriptBox[\((list[[i]] - R)\), \(2\)]\) - 1/n \!\(

\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]

\*SuperscriptBox[\((list[[i]] - Alist)\), \(2\)]\)]

上面的式子虽然是一个可以严格证明的恒等式,统计学家亦做过一个实验,他们让一群人猜测一头牛的质量,每个人都可以自由猜测,猜测出来的结果,很多人预测结果非常离谱(这以为着),然而其预测值的平均值却非常接近牛的质量(误差小于0.5%)。

较为不严格的说,减小预测最终误差的方法在于增大方差

知乎公开了所有的投票数据,我们可以利用它,一个简单的想法便是:取所有用户投票的平均值

这样就获得了最初的算法:

2ba83ee270323f02f2e9e8b5ce694105_r.jpg

这样的算法,成功预测了第一轮前半部分 70% 的比赛结果。对,只要获得大量知友的投票数据即可。

当然,如果想让结果看起来更加舒服,可以写成这样:

8e78f1081c9262506466c4569a7a1932_r.jpg

比如这是刚开始巴西对阵克罗地亚的比赛:

In[5]:= data001 = {176, 701, 1240, 917, 160, 82, 25, 18, 14};

In[6]:= GoAuto[data001]

Out[6]= -2

模型表现不错。

当然,我们要注意已有的投票数对于知友投票的影响。

多样性预测定理的另一个表述便是:不同的人,对某一事物进行预测,他们使用不同的模型,而最终加权平均的结果,会更加接近真实值。

但是一些知友使用的无用的模型,比如随机投票、从众、求异,这样没有营养的模型对预测结果是没有帮助的,我们要将之剔除。所以我们要获得不同时段的投票数据。

比如这一场巴西 VS 智利的比赛,两次获得的投票数据为:

data6271 = {36, 398, 2033, 1813, 125, 110, 25, 10, 34};

data627x = {129, 1172, 5572, 4931, 367, 364, 80, 40, 164};

data627y = {199, 1658, 7604, 6775, 622, 562, 133, 79, 252};

我们将新的数据,除以旧的数据,得到这样有趣的图像:

fa3edbb09ac1a88a1e0368d4c028e46b_r.jpg

大家似乎并不愿意从众,反而是愿意求异,我们将这样的「无用」的模型剔除。获得了这样的结果:

b0701e0fa06220f8099abe1d87c53188_b.jpg
6b27042db5b967ce7f84f97f0a305198_r.jpg

代码部分


「多样性预测定理」的思想非常简单,但结果还是相对比较好的(至少我这个不懂球的能两次都保持在前200),下面是一些代码(Mathematica/Wolfram Language

基本预测:

GoBasic[list_] := {-4, -3, -2, -1, 0, 1, 2, 3, 4}.list/Total[list]

Aver[list_] := Total[list]/Length[list]

Si2[list_] := With[{aver = Aver[list], n = Length[list]}, \!\(
\*UnderoverscriptBox[\(\[Sum]\), \(i = 1\), \(n\)]
\*SuperscriptBox[\((list[\([\)\(i\)\(]\)] - aver)\), \(2\)]\)/n]

GoAuto[list_] := Round[GoBasic[list]]

剔除无用模型:

Show[ListLinePlot[N[data627x/data6271], PlotRange -> {{0, 9}, {0, 5}},
   Mesh -> All], 
 Plot[a (x - b)^2 + c /. root1, {x, 0, 9}, PlotStyle -> Red]]

正态分布拟合:

Gauss[list_, p_] := 
 With[{fit = 
    FindFit[list/Total[list], 
     1/(Sqrt[2 \[Pi]] \[Sigma]) E^(-(p - \[Mu])^2/(
      2 \[Sigma]^2)), {\[Sigma], \[Mu]}, p]}, 
  Show[ListPlot[list/Total[list], PlotStyle -> Red], 
   Plot[E^(-((p - \[Mu])^2/(2 \[Sigma]^2)))/(
     Sqrt[2 \[Pi]] \[Sigma]) /. fit, {p, 0, 10}, Filling -> Bottom], 
   PlotRange -> All]]

多重正态分布拟合:

Fitcomplex[list_, prelist_] := 
 FindFit[list/
  Total[list], {u*1/(Sqrt[2 \[Pi]] \[Sigma]) E^(-(p - \[Mu])^2/(
     2 \[Sigma]^2)) + (1 - u)*1/(Sqrt[2 \[Pi]] \[Sigma]2)
      E^(-(p - \[Mu]2)^2/(2 \[Sigma]2^2)), 0 < u < 1, 0 < \[Mu] < 9, 
   0 < \[Mu]2 < 9}, {{\[Mu], prelist[[1]]}, {\[Mu]2, 
    prelist[[2]]}, \[Sigma], \[Sigma]2, u}, p]

Plotcomplex[list_, getlist_] := 
 Show[Plot[(u E^(-((p - \[Mu])^2/(2 \[Sigma]^2))))/(
     Sqrt[2 \[Pi]] \[Sigma]) + ((1 - u) E^(-((p - \[Mu]2)^2/(
       2 \[Sigma]2^2))))/(Sqrt[2 \[Pi]] \[Sigma]2) /. getlist, {p, 0, 
    10}, Filling -> Bottom], 
  ListPlot[list/Total[list], PlotStyle -> Red], 
  Plot[((1 - u) E^(-((p - \[Mu]2)^2/(2 \[Sigma]2^2))))/(
    Sqrt[2 \[Pi]] \[Sigma]2) /. getlist, {p, 0, 9}, Filling -> Bottom,
    PlotRange -> All], 
  Plot[(u E^(-((p - \[Mu])^2/(2 \[Sigma]^2))))/(
    Sqrt[2 \[Pi]] \[Sigma]) /. getlist, {p, 0, 9}, Filling -> Bottom, 
   PlotRange -> All]]

拟合的结果就是这样的,但结果与一开始的模型差别不大,就没有怎么用:

4bfee2c7b00ef87cf82bcca1a8e7aac6_b.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,423评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,147评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,019评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,443评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,535评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,798评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,941评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,704评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,152评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,494评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,629评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,295评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,901评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,978评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,333评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,499评论 2 348

推荐阅读更多精彩内容