CH1 统计学习方法概论|1.3统计学习三要素《统计学习方法》-学习笔记

文章原创,最近更新：2018-06-20

1.模型
2.策略
3.算法
参考链接:
1、《深度学习入门六》损失函数减肥用，神经网络调权重

前言：通过网上找的文章,通过归纳总结具体如下:

统计学习方法都是由模型、策略和算法构成的，即统计学习方法由三要素构成，可以简单地表示为:
方法=模型+策略+算法
下面论述监督学习中的统计学习三要素。非监督学习、强化学习也同样拥有这三要素。可以说构建一种统计学习方法就是确定具体的统计学习三要素。

1.模型

统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间（hypothesis space）包含所有可能的条件概率分布或决策函数。例如，假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个.
假设空间用F表示，假设空间可以定义为决策函数的集合

其中，X和Y是定义在输入空间x和输出空间y上的变量。这时F通常是由一个参数向量决定的函数族：

2.策略

2.1损失函数

有了模型的假设空间，统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏.

我们知道，在机器学习中的“有监督学习”算法里，在假设空间中，构造一个决策函数f，对于给定的输入X，由f(X)给出相应的输出Y，这个实际输出值Y和原先预期值Y’可能不一致。于是，我们需要定义一个损失函数（loss function），也有人称之为代价函数（cost function）来度量这二者之间的“落差”程度。这个损失函数通常记作L(Y,Y)= L(Y, f(X))，为了方便起见，这个函数的值为非负数。
常见的损失函数有如下3类：

（1）0-1损失函数（0-1 loss function）：

（2）绝对损失函数（absolute loss function）

（3）平方损失函数（quadratic loss function）

损失函数值越小，说明实际输出和预期输出的差值就越小，也就说明我们构建的模型越好。

对于第一类损失函数，用我自身减肥的例子很容易解释。就是减肥目标达到没？达到了，输出为0（没有落差嘛），没有达到输出1（减肥尚未成功，胖纸还需努力！）

对于第二类损失函数就更具体了。当前体重秤上读数和减肥目标的差值，这个差值有可能为正，但还有可能为负值，比如说，减肥目标为150磅，但一不小心减肥过猛，减到140磅，这是值就是“-10”磅，为了避免这样的正负值干扰，干脆就取一个绝对值好了。

对于第三类损失函数，类似于第二类。同样达到了避免正负值干扰，但是为了计算方便（主要是为了求导），通常还会在前面加一个“1/2”，这样一求导，指数上的“2”和“1/2”就可以相乘为“1”了：

当然，为了计算方面，还可以用对数损失函数（logarithmic loss function）。这样做的目的，主要是便于使用最大似然估计的方法来求极值。一句话，咋样方便咋样来！

或许你会问，有了这些损失函数？有啥子用呢？当然有用了！因为可以用它反向配置网络中的权值（weight），让损失（loss）最小啊。

我们都知道，神经网络学习的本质，其实就是利用“损失函数（loss function）”，来调节网络中的权重（weight）。

2.2风险函数

损失函数值越小，模型就越好。由于模型的输入、输出（X，Y）是随机变量，遵循联合分布P（X,Y），所以损失函数的期望是

这是理论上模型f（X）关于联合分布P（X,Y）的平均意义下的损失，称为风险函数（risk function）或期望损失（expected loss）

学习的目标就是选择期望风险最小的模型。由于联合分布P（X,Y）是未知的，Rexp（f）不能直接计算。实际上，如果知道联合分布P（X，Y），可以从联合分布直接求出条件概率分布P（Y|X），也就不需要学习了。正因为不知道联合概率分布，所以才需要进行学习。这样一来，一方面根据期望风险最小学习模型要用到联合分布，另一方面联合分布又是未知的，所以监督学习就成为一个病态问题（ill-formed problem）

给定一个训练数据集

模型f(X)关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作Remp：

期望风险Rexp（f）是模型关于联合分布的期望损失，经验风险Remp（f）是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险Remp（f）趋于期望风险Rexp（f）·所以一个很自然的想法是用经验风险估计期望风险。但是，由于现实中训练样本数目有限，甚至很小，所以用经验风险估计期望风险常常并不理想，要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

3.算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,277评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,689评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,624评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,356评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,402评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,292评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,135评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,992评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,429评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,636评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,785评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,492评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,092评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,723评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,858评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,891评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,713评论 2赞 354