8-Bias and Variance Tradeoff

在这之前整理一下之前的脉络。 首先我们一直强调的是让Ein尽量靠近Eout, 最开始用了Hoeffding不等式, 其实右边可以看成是所有的Error area相加?最开始是以M(size of hypothesis set)作为估计的, 显然M中的Error区域是有很多重复的, 如果以这个作为估计的话, 不等式是容易满足的; 于是我们从无穷的Hypothesis set过度到只研究N个点上面的Hypothesis set大小, 产生了growth function; 然后又发展了VC dimension = break point - 1, 并且推导了growth function与VC dimension的关系是polynomial(实际计算的时候可以只考虑主项,N^d);最终我们得到是Eout的上界(泛化能力)Eout < Ein + \delta。 以下是一点关于VC dimension= infinite的理解, 之前可能有一种理解就是M如果是无穷大(其实就是没有break point, VC dimension无穷, 那么岂不是所有的样例都能被分开, 然而到后面发展到VC inequality的角度来看这意味着需要更无穷的数据来拟合呢, 显然是无法达到的。Hypothesis set大了, Ein会小,但是\delta会大, 这其中是有tradeoff的。

  • size of hypothesis set is related to the ability of generalization. Hypothesis set越大, 说明更有可能选择到g约等于f, 但是, 有个前提是我们是从training data来训练选择到g的, 这样做的结果就是模型泛化能力差。


    relation
  • Bias-variance衡量了H能多靠近target function(bias), 以及靠近target function的h的范围有多大(variance)。


    quantifying
  • 推导环节。Eout就是在一个数据集中所有的点的Error的均值, 为了使它是与independent of different dataset, 可以选择在不同的data set上面取均值。 并且定义了average hypothesis就是在所有的数据集上面得到的hypothesis的均值。最终得到了E_D的表达式, bias就是在不同的数据集上面能够取得的g(x)与target function的偏差(我们实际能取得的最好的能力), variance就是在最优的g(x)上面我们的波动有多大。


    start

    average

    using it

    bias and variance
  • 下面的解释很直观, 左边的图只有一个hypothesis, bias很大, 但是根本就没variance; 右边的图的hypothesis大很多, 因此总能找到一个跟target function f靠的很近的hypothesis, 因此bias小, 但是variance也随之变大了。


    illustrate
  • example:拟合sine。我们并不知道target function就是sine, H0是用线h(x)=b来拟合, H1 是用线h(x) = ax + b来拟合。在本例子中每次都是从数据集中采样两个点, 让模型去学习, 毫无疑问, H0 的最终学习到的final hypothesis 一定是h(x)=0, 而H1是一根斜线; 而灰色区域就是各自的variance。虽然H1的bias高, 但是其variance更低,OK, the winner is H0。


    sine

    H0

    H1

    winner
  • 接下来分析Ein, Eout随着data size N是如何变化的, 主要是推断模型的泛化能力。无论简单或者复杂的模型, 当数据点少的时候, 如N = 5 肯定比 N = 20 容易些, 所以Ein是随着N的增大而增大的, 而Eout是out of sample的点, 若数据点太少模型泛化能力不能保障导致Eout也会增加。 而对于复杂的模型, Ein一开始是0是因为VC dimension大, 能够shatter这些点, 随着数据点增多, 不能区分的pattern逐渐显现, 所以Ein又增加了。 同样, 复杂的模型需要更多的点来保证generalization, Eout才会降低。


    Expected

    versus
  • 接下来从VC理论和bias-variance tradeoff来分析generalization bound。 对于VC来说, Eout < Ein + \delta, Ein就是蓝色的区域, 而红色就是\delta, generalization error; 从bias-variance来看, Eout = bias + variance, 图中的黑线就是模型在所有的数据集上面能达到的误差, 所谓average g,它就是与target function之间存在的bias, 而红色区域就是variance,波动有多大。


    view
  • case: linear regression。 用y加上一些noise来模拟out of sample。 显然, 如果不加的话, 图中的黑线就在纵坐标为0的地方了, 而现在刚好是在noise的variance的地方。 d+1是VC dimension。


    case

    curve
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容

  • 马云曾经说过“人一定要有梦想,万一实现了呢?” 唐谷人就是一群有梦想并且敢于挑战的人,敢于拼搏的人,今天 我们...
    芹菜185阅读 197评论 0 0
  • 最近《欢乐颂》评价蛮高,这部当下红的发紫、热得发烫的剧,我忙里偷闲追了一下下,这部以5位不同女性为题材的都市女性励...
    平心而谈阅读 1,381评论 3 1
  • 太久没有写下一些文字了,这种感觉变得陌生,又似在和自己对话。想要表达的想法大都已经被人说到过,有过的心情也...
    迎春星星之火阅读 335评论 0 0