模型评估与选择

一、经验误差与过拟合

  1. 误差率
    分类错误的样本数占样本总数的比率。

  2. 精度
    分类正确的样本数占总数的比率。

  3. 误差
    学习器的实际预测输出与样本的真实输出之间的差异。

  4. 训练误差(经验误差)
    学习器在训练集上的误差。

  5. 现状
    很多情况下,可以学的一个经验误差很小、在训练集上表现很好的学习器;甚至对训练样本的分类可以达到100%的准确。

  6. 挑战
    这样的学习器在多数情况下并不好。

  7. 实际期望

  • 目标:让学习器在新样本上表现很好;
  • 方法:从训练样本中尽可能学出适用于所有潜在样本的 “普遍规律” ;
  1. 挑战:
  • 过拟合:把训练样本学得 “太好”,可能把训练样本本身的特性,当做所有潜在样本都会具有的一般性质;导致性能下降;
  • 欠拟合:对训练样本的一般性质尚未学好。
  1. 原因分析
  • 过拟合:学习能力过于强大,把训练样本所包含的特性都学到了;
  • 欠拟合:学习能力低下;
  1. 解决办法:
  • 欠拟合(简单):在决策树学习中,扩展分支;在神经网络学习中,增加训练轮数;
  • 过拟合(复杂):是机器学习面临的关键障碍,各类学校西算法都有针对过拟合的措施,只能缓解,无法彻底避免;
    理解:机器学习面临的问题,通常是NP难的,甚至更难;而有效的学习算法必然是在多项式时间内运行完成,若可彻底避免过拟合,则通过经验误差最小化就能获得最优解。这与 “P=NP” 矛盾;只要相信 “P != NP”,那么过拟合不可避免;
  1. 挑战
  • 挑战:对于同一个任务,有多种学习算法可供选择,同一个学习算法设置不同参数,也会得到不同的模型;
  • 存在的问题:选择哪一个学习算法?选择哪一种参数配置?
  1. 理想解决办法
  • 对候选模型的泛化误差进行评估;
  • 选择繁华误差最小的那个模型。
  1. 现实挑战:
  • 无法直接获得泛化误差;(潜在样本未知)
  • 训练误差不适合作为标准;(过拟合并不好)

二、评估方法

1. 现实中如何选择学习算法和参数配置?

可通过实验测试来对学习器的泛化误差进行评估,进而做出选择。

2. 测试集
  • 作用:测试学习器对新样本的判别能力,然后,以测试集上的 “测试误差” 作为泛化误差的近似;
  • 获得:通常假设测试样本是从样本真实分布中独立同分布采样获得。
  • 注意:测试集应该尽量与样本集互斥,也就是,样本尽量不在训练集中出现,未在训练过程中使用过。
3. 原因

学校的学习锻炼的是学生 “举一反三” 的能力,不应该出之前学过的题目。

4. 获得测试集和训练集
  • 方法:对数据集进行适当的处理,从中产生训练集测试集
5. 获取方法1:留出法

1)留出法
直接将数据划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集。

用训练集训练出模型后,用测试集评估误差。

2)需要的性质

  • 训练集和测试集的划分尽可能保持数据分布的一致性;
  • 避免因数据划分过程引入额外的偏差,而对最终结果产生影响;

3)使用方法
采用随机划分的方法,重复进行实验评估后,取平均值作为留出法的训练结果。

4)比例问题
若训练集太大,则训练处的模型接近了数据集的模型;若训练集太小,那么,评估结果可能不够精确。需要在二者之间做一个均衡;

  • 均衡:一般训练集和测试集的比例:(2/3 - 4/5);
6. 交叉验证法

1)原理

  • 将数据集 D 划分为k个大小相似的互斥子集,每个子集尽量保持数据分布的一致性;
  • 从中选取 k-1 个子集作为训练集,剩下一个子集作为测试集;
  • 从而可以获得 k 个训练集/测试集的组合;
  • 最终获得k个测试结果的均值。

2)子集的划分

  • 挑战:数据集 D 划分为k个子集,存在多种划分方式;需要减少因样本划分不同而引入的差异。
  • 解决:随机使用不同的划分重复 p 次,最终获得的结果是 p 次k折交叉验证结果的均值。

3)特殊案例:留一法
样本有m个,划分子集数 k=m,也就是说,只保留一个样本不训练。

  • 优势:一般认为它评估的结果比较准确
  • 缺陷:样本大时,需要训练的模型太多。
7. 分析
  • 留出法:实际评估的模型使用的训练集比数据集小,引入了因样本规模不同而导致的偏差;
  • 留一法:计算复杂度高;
    动机:需要 ① 减少训练样本规模不同的影响;② 高效的进行实验估计;
8. 自助法

1)步骤

  • 首先,从初始数据集 D 中随机挑选一个样本拷贝放入D'。
  • 重复上述过程,m次,D' 中也包含 m 个元素;
  • D' 作为训练数据,D\D' 作为测试数据。

2)性能

  • D' 包含不重复的元素大约占 2/3,D\D' 大约占1/3;
  • 别称:包外估计;

3)特点

  • 长处:在数据集较小,难以有效划分训练集/测试集的情况下很有用;
    -分析:自助法产生的数据集改变了初始数据及的分布,引入了额外的估计偏差;
  • 短处:在数据量充足的情况下,留出法和交叉验证法更加常用;
8. 调参与最终模型
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349