Learning From Data 笔记

这几天跟着B站的视频教程读了《Learning From Data》这本书,找个地方总结下自己的理解。

为什么可以学习

做机器学习需要解决的第一个问题就是为什么机器学习是可行的?这个直觉上看起来没啥可讨论的问题,细化分析之后可以得出不少有趣的结论。

假设集合H,测试集误差Ein和实际误差Eout

机器学习的过程抽象起来就是从一个假设集合H中,根据测试数据上的误差Ein,选取最合适的假设h的过程,这中间就涉及两个主要问题:

  • 如何保证Eout
    我们只能在测试数据上进行测试,得到测试误差Ein,但是如何保证在真实数据上应用这个假设时,Eout的大小也是可控的呢?

  • 如何选择h
    H的大小很可能是无限大,我们不可能把所有的假设都在测试数据上跑一遍,那么如何在有限的尝试中选取合适的h呢?

如何保证Eout好像直觉上很简单,如果保证测试数据是在真实数据中独立随机采样到的,那么在测试数据上Ein和真实数据上的Eout的大小就有一个概率关系,也就是霍夫丁不等式:


霍夫丁不等式

是吧,看起来很简单,Ein保证了,Eout就有保证了。但是我们忽略了一个过程,选择最终的假设h时,我们是在H集合里选的,一般都是选择Ein最小的那一个,这个过程会干扰Eout。
怎么理解呢,我们举一个例子,假设我们需要预测一个有无限个球的罐子里,各种颜色球(红黄蓝)的比例,然后球一共有3种颜色,实际上各种颜色球的比例是1:1:1,实验方法是从罐子里取出3个球,来看哪种假设符合。

我们的假设集合本来只有两个假设,红黄蓝1:1:1和全蓝,全蓝命中的概率只有(1/3)^3,很明显全蓝是个错误的假设。
现在我们为了“更好的训练”,扩充了假设集合,把全红,全黄都加了进来。结果呢反而导致出错的概率从(1/3)^3到了 (1/3)^3 * 3。

细品一下,测试数据总是有可能出现一些极端分布,会使得一些错误假设Ein特别低,当假设集合特别大的时候,每一个错误假设都可能撞上对它来说match的数据分布,最终:

假设集合的增大,可以让我们找到更低的Ein,但同时也导致Eout的范围扩大

VC维

实际上,Eout的扩大和H的大小是正比的,这样对于我们通常大小是无限的H来说,机器学习似乎失去了意义,当假设集合太大时,我们总是可能选到一个正好在测试数据上表现特别好的“错误假设”。为了解决这个问题,我们对假设进行了分类,引入了VC维的概念。

VC维从某种程度上描述了某一个假设的“变化能力”,还是继续刚才那个拿球的例子,因为“全黄,全红”的假设加入,导致我们出错概率变大,那么有一个做法就是继续拿球,拿n个球,出错概率会变成 (1/3)^n * 3,随着n变大,出错概率也会变小。但是如果我们的假设还包含“n-1:1:0", "n-2:1:1"这种呢?结果就是无论我们拿多少个球,总会有一个莫名其妙的假设正好撞上,最后稀里糊涂成为我们的最终假设。

所以虽然H是无限的,但我们仍然要限制假设的实际能力,比如我们规定,假设只能估计10个球内红黄蓝的分布,这样虽然10个球以内怎么拿都会有一个奇葩假设能match,但是如果拿了10+K个球,多的K个球,每个球都是对假设集合的一个检验。

限制假设的能力,有几个办法

  • 一个是对假设进行分析,找到它本身的能力范围,就是VC维,如果假设的VC维不是无限的,那么增大采样数据,就可以减小假设集合选出一个错误假设的概率。

  • 第二个就是强行约束我们模型的”能力“,当模型的VC维太大时,我们可以得到很小的Ein,但是Eout会很大,就是我们常说的过拟合。过拟合常见的一个方案是增加regulator,regulator的作用方式是对模型参数增加一个限制,从某个角度看,就是限制了模型的表达能力,降低了其VC维。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345