二战周志华《机器学习》-3-6章知识点拾遗

1、第三章：线性模型

多分类学习：不失一般性，考虑N个类别，多分类学习的基本思路是"拆解法",即将多分类任务拆为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。
最经典的拆分策略有三种：一对一，一对其余，多对多。

多分类学习：一对一策略(OvO)：给定数据集D，其中有N个分类，那么一对一的策略将这N个类别两两配对，从而产生N(N-1)/2个二分类任务，例如OvO将为区分类别Ci和Cj训练一个分类器，该分类器把D中的Ci类样例作为正例，Cj类样例作为反例。在测试阶段，新样本将同时提交给所有分类器，于是我们会得到N(N-1)/2个结果，最终结果可通过投票产生：即把被预测的最多的类别作为最终的分类结果。

多分类学习：一对多策略(OvR):OvR则是每次讲一个类的样例作为正例，所有其他类的样例作为反例来训练N个分类器，在测试时若仅有一个分类器预测为正类，则对应的类别标记便是最终的分类结果，如果有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。

下图展示了OvO和OvR策略的示意图：

多分类学习：多对赌策略（MvM）:MvM每次将若干个类作为正类，若干个其他类作为反类，MvM的正反类构造必须有特殊的设计，不能随意选取，这里我们介绍一种最常用的MvM技术，“纠错输出码”（EOOC）：
EOOC是将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性，EOOC的工作过程主要分为两步：
编码：对N个类别做M次划分，每次划分将一部分类别划分为正类，一部分划分为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器。
解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。
类别划分通过编码矩阵指定，编码矩阵有多种形式，最常见的是二元码和三元码，前者将每个类别分别指定为正类和反类，后者在这个基础上增加了停用类。如下是EOOC的示意图：

2、第四章：决策树

连续值处理：最简单的策略是采用二分法，连续属性如果有N个取值，则有N-1个分割点，然后就可以对这N-1个分割点分别计算其信息增益，以选取最好的分割点。

缺失值处理：直接上图：

3、第五章：神经网络

如何跳出局部极小：神经网络中容易陷入局部极小的问题，那么实际中如何跳出局部极小呢？主要有以下几种策略：
1）以多组不同的参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数，这相当于从多个不同的初始点开始搜索，这样就可能陷入不同的局部极小，从中进行选择有可能获得更接近全局最小的结果。
2）模拟退火，模拟退火在每一步都以一定的概率接受比当前解更差的结果，从而有助于跳出局部极小，在每步迭代过程中，接受次优解的概率要随着时间的推移而逐渐降低，从而保证算法的稳定性。
3）使用随机梯度下降，与标准梯度下降法精确计算梯度不同，随机梯度下降法在计算梯度时加入了随机因素，于是，即便陷入局部极小点，它计算出的梯度仍可能不为0，这样就有机会跳出局部极小继续搜索。
4）遗传方法也经常用来训练神经网络以更好的逼近全局最小。

4、第六章：支持向量机

支持向量机回归SVR

这样我们可以得到一个带正则项的损失函数：

可以看到，这个误差函数中后面一部分与SVM中的目标函数类似，我们再将二次误差函数替换为⼀个ϵ -不敏感误差函数，于是SVR问题可形式为：

ϵ -不敏感误差函数如下：

通过引入松弛变量的方式，我们可以重新表达最优化问题。对于每个数据点xn，我们现在需要两个松弛变量，如下图所示：

目标点位于上图管道中的条件为：

引入松弛变量之后，在上图中管道上下两侧的点满足的条件为：

这样，支持向量回归机的优化问题可以写为：

同样，使用拉格朗日乘子法将约束条件带入目标函数中：

同样使用SVM中求解对偶问题的思路，可以得到：

使用这些结果消去拉格朗日函数中对应的变量，得到SVR的对偶问题：

这样，得到的SVR回归模型为：

最后编辑于：2017.12.11 01:09:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,454评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,553评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,921评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,648评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,770评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,950评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,090评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,817评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,275评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,592评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,724评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,409评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,052评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,815评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,043评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,503评论 2赞 361
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,627评论 2赞 350

二战周志华《机器学习》-3-6章知识点拾遗

1、第三章：线性模型

2、第四章：决策树

3、第五章：神经网络

4、第六章：支持向量机

推荐阅读更多精彩内容