机器学习-支持向量机

积跬步以致千里,积怠惰以致深渊

注：本篇文章整理时主要参考了周志华的《机器学习》。

主要内容

支持向量机会接受数据点，并输出一个超平面（在二维的图中，就是一条线）以将两类分割开来。这条线就是判定边界：将红色和蓝色分割开来。

但是，最好的超平面是什么样的？对于SVM来说，它是最大化两个类别边距的那种方式，换句话说：超平面（在本例中是一条线）对每个类别最近的元素距离最远。

什么是SVM

好吧，故事是这样子的：

在很久以前的情人节，大侠要去救他的爱人，但魔鬼和他玩了一个游戏。

魔鬼在桌子上似乎有规律放了两种颜色的球，说：“你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。”

于是大侠这样放，干的不错？

然后魔鬼，又在桌上放了更多的球，似乎有一个球站错了阵营。

SVM就是试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙。

现在即使魔鬼放了更多的球，棍仍然是一个好的分界线。

然后，在SVM 工具箱中有另一个更加重要的trick。魔鬼看到大侠已经学会了一个trick，于是魔鬼给了大侠一个新的挑战。

现在，大侠没有棍可以很好帮他分开两种球了，现在怎么办呢？当然像所有武侠片中一样大侠桌子一拍，球飞到空中。然后，凭借大侠的轻功，大侠抓起一张纸，插到了两种球的中间。

现在，从魔鬼的角度看这些球，这些球看起来像是被一条曲线分开了。

再之后，无聊的大人们，把这些球叫做「data」，把棍子叫做「classifier」, 最大间隙trick 叫做「optimization」，拍桌子叫做「kernelling」, 那张纸叫做「hyperplane」。

找寻最佳超平面

1）为“最佳”的超平面定性

在考虑哪一个超平面性能会更佳时，一个直观的想法就是位于两类训练样本“正中间”的划分超平面会更好一些，因为它对训练样本局部扰动的“容忍性”最好。而这个正中间的超平面一定满足这样的一个条件，那就是离它最近的正例数据和反例数据到它的距离之和最大。

所以，支持向量机算法第一步将寻找“最佳”超平面的问题转换为寻找“最大间隔”的划分超平面问题。

2）“最大间隔”由什么确定

为了更形象地表现正负样本的间隔，我们可以在分割超平面的两侧再定义两个平行的超平面H1和H2，这两个超平面分别通过正样本和负样本中离分割超平面最近的样本点。

我们定义超平面H1和H2上面的点叫做支持向量。正负样本的间隔可以定义为超平面H1和H2之间的间隔，它是分割超平面距最近正样本点距离和最近负样本点距离之和。

支持向量对于分割超平面的位置是起到关键作用的。在优化分割超平面位置之后，支持向量也显露出来，而支持向量之外的样本点则对分类并不关键。为什么这样说呢？因为即使把支持向量以外的样本点全部删除，再找到最优的分割超平面，这个超平面的位置跟原先的分割超平面的位置也是一样的。总结起来就是：支持向量包含着重构分割超平面所需要的全部信息！

支持向量机算法将寻找“最大间隔”的问题转换为不等式约束的优化问题。

所以总结一下，支持向量机分类的背后逻辑是：找到最好的超平面将训练样本正确分类 --> 最好的超平面为是正反例样本“间隔最大”的平面 --> 间隔最大的平面寻找实际上是一个不等式约束优化问题。

3）当超平面在样本空间上无法划分开训练样本时，该如何处理？

在前面的讨论中，我们假设训练样本是线性可分的，然而在现实任务中，原始样本空间内也许并不存在一个能正确划分两类样本的超平面。

对待原始数据无法线性可分的问题，一个合适的思路是将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。

一维空间

如上所示有两类圆点，分别是蓝点和红点。容易发现我们不能够找到一条直线将圆点分类。即线性不可分。

二维空间

但如果将一维圆点映射到二维，就容易找出能够将圆点分类的直线。

下图同样为在线性不可分的情况下映射到更高维的视觉化演示。

线性不可分

映射三维空间

超平面

由于样本 xi 和 xj 映射到特征空间之后的内积因为维数可能很高，所以比较难直接计算。为了避开这个障碍，我们设计了“核函数”（kernel function），这个函数使得 xi 和 xj 在特征空间的内积等于它们在原始样本空间中通过核函数 k(xi, xj) 计算的结果。

如果我们已知合适的特征映射O(.)的具体形式，则可写出核函数 k(. , .)，但在现实任务中我们通常不知道O(.)是什么形式。

幸运的是，我们知道：只要一个对称函数所对应的核矩阵是半正定，它就能作为核函数使用，并且对于一个半正定核矩阵，总能找到一个与之对应的映射O(.)空间。

所以，我们知道了吧，对于在样本空间中无法线性可分的数据，我们不是先去找到使它线性可分的映射空间，然后通过核函数去计算的；相反，我们是得要选择一个核函数先，然后通过这个核函数去找到对应的映射特征空间，并计算在该映射空间上的最优超平面。

通过前面的讨论可知，我们希望样本在特征空间内线性可分，因此特征空间的好坏对支持向量机的性能至关重要。很显然，核函数的选择不当，很可能会导致样本被映射到一个不好的空间，导致算法性能不佳。于是，“核函数选择”成为了支持向量机的最大变数。

4）当超平面无法完全划分开训练样本时，该如何处理？

因为在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分，为了缓解该问题，一个合理的办法是允许支持向量机在一些样本上出错。这种策略被称为“软间隔”（soft margin），它允许某些样本不满足不等式约束。

当然，在最大化间隔的同时，不满足约束的样本应尽可能少。我们在之前的优化目标式子中加入了损失函数的影响，当样本落入不满足约束的空间内时，损失函数的值就会变大，使得优化目标的值向反方向移动；当样本落入满足约束的空间内时，损失函数的值减小甚至为0，使得优化目标的值向着目标方向移动。C > 0是个常数，代表着损失函数的影响力，当C无穷大时，会迫使所有的样本要满足约束；当C取有限值时，允许一些样本不满足约束。

5）支持向量回归（SVR）

支持向量机是一个二分类器，SVR就是支持向量机算法在回归模型上的应用。同前一节的方式类似，只不过这次引入的损失函数是根据回归模型的原理设计的，是一个预测结果g(x)与真实结果y之间的差值，当这个差值大于一个常数 e 时，才会被计算。

6）核方法

给定训练样本，若不考虑偏移项，则无论 SVM 还是 SVR ，学得的模型总能表示成核函数的线性组合。正因为核函数的重要性，人们发展出一系列基于核函数的学习方法，统称为“核方法”（kernel methods）

总结

[1] 支持向量机的基本思想是：基于训练集 D 在样本空间中找到一个划分超平面，将不同类别的样本分开

[2] 支持向量机的目标是：找到泛化性能最佳的那个超平面

[3] 支持向量机的计算逻辑是：第一步将寻找“最佳”超平面的问题转换为寻找“最大间隔”的划分超平面问题；第二步将寻找“最大间隔”的问题转换为不等式约束的优化问题

[4] 当超平面无法在样本空间中将训练数据划分开时，将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分

[5] 当超平面无法完全将训练数据划分开时，使用软间隔的策略，允许某些样本不满足不等式约束。具体通过引入损失函数到优化目标方程中实现。

[6] 训练好的模型的算法复杂度是由支持向量的个数决定的，而不是由数据的维度决定的。所以SVM不太容易产生overfitting。

[7] SVM训练出来的模型完全依赖于支持向量(Support Vectors)，即使训练集里面所有非支持向量的点都被去除，重复训练过程，结果仍然会得到完全一样的模型。

[8] 一个SVM如果训练得出的支持向量个数比较小，SVM训练出的模型比较容易被泛化。

最后编辑于：2017.12.10 21:49:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,240评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,328评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,182评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,121评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,135评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,093评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,013评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,854评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,295评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,513评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,398评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,989评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,636评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,657评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352

机器学习-支持向量机

主要内容

什么是SVM

找寻最佳超平面

总结

推荐阅读更多精彩内容