机器学习系列(三)_SVM算法的part1：间隔

姓名：黄永飞；学号：17040520006；学院：机电工程学院；

转自：

http://blog.csdn.net/han_xiaoyang/article/details/49797143

【嵌牛导读】机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在机器学习中，SVM这么神圣的算法可能是每个学习者会头痛却又不得不面对的，下面是SVM算法系列，进行详细讲解算法的使用和应用。

【嵌牛鼻子】SVM算法逻辑回归间隔

【嵌牛提问】什么是SVM算法？其用法和原理是什么？如何让理解最大间隔？

1.支持向量机（SVM）的目标是什么

SVM的目标是利用训练数据集的间隔最大化找到一个最优分离超平面

首先和逻辑斯蒂回归和朴素贝叶斯一样，我们需要一些打标签的数据用于训练，这也就是说SVM是一个有监督学习算法。

同样，SVM是一个分类算法，和逻辑斯蒂回归和朴素贝叶斯一样，可以用于预测数据属于哪个类别。

典型的分类问题比如结果预测(比如泰坦尼克号生存结果)和垃圾邮件分类，或者下面这个简答的人群分类小例子：

上图是人的身高和体重绘制的散点图，使用支持向量机（SVM），可以尝试回答以下问题：

给定一个特定的数据点（重量和高度），这个人是一个男人还是一个女人？

例如：有人高175厘米，重80公斤，他是男人还是女人呢？

2.什么是分离超平面

在图中我们可以看出，我们是有办法可以分离这两类样本点的。例如：我们可以画一条线，使得所有的男性数据点在直线上方，所有的女性数据点在直线的下方。我们知道在逻辑斯蒂回归当中，这条直线叫做决策边界，在SVM当中我们暂且把它叫做分离超平面，大概是下图这个样子的，但是它和LR里面的决策边界有一些小小的不同，一会儿我们会提到。

如果它仅仅是一条线，我们为什么称它为一个超平面？

上面只是二维空间中的一个小例子，但事实上SVM在任意维度上均有效。

超平面是平面的一般化

在一维的平面中，它是点

在二维中，它是线

在三维中，它是面

在更高的维度中，我们可以称之为超平面

点L是一维空间下的分离超平面

什么是最优分离超平面?

OK，重点来了，刚才提到了逻辑斯蒂回归当中，有个类似的概念叫做决策边界，在SVM当中把它叫做分离超平面，事实上，你找到了一个分离超平面，但那不意味着它是最优的那个！

回到刚才的例子中，我们可以找到好几个分离超平面。他们每一个都是正确的，可以成功将数据集中的男性和女性划分两边。

但是是不是说这些分离超平面都一样好呢？

OK，咱们一起来看看，假设我们选择那个绿色的分离超平面，然后咱们用在现实生活中的数据上进行分类。

你会发现有一些女性被分错了！！直观上非常好理解，这个分类超平面太接近女性(红色样本点)了，那它对noise/异常点/临近边界的点处理得并不好。

所以大家都想到了，我么要选择这样一个超平面–尽可能的远离所有类别的数据点：

这次看起来好多了，再用刚才新加的样本点去分类，你发现这次它健壮多了，可以好好地把它们分对了。

对，这就是SVM要做的事情，支持向量机就是要找到这样一个最优分类超平面，保证：

正确地对训练数据进行分类

对未知数据也要进行很好的分类

所以这和Margin/间隔有什么关系呢？又怎么找到它呢

对应上图，一句话概括：Margin就是最优分离超平面的间隔。

给定一个特定的超平面，我们可以计算出这个超平面与和它最接近的数据点之间的距离。间隔（Margin）就是二倍的这个距离。

一般来说，间隔（Margin）中间是无点区域。这意味着里面不会有任何点。（注：在数据有噪声的情况下，可能达不到这么理想的状况，所以我们后面会引入软间隔分类器）

我们从刚才的分割超平面里再选一个，间隔（Margin）会看起来像这样：

可以清楚地看出，B的间隔要小于A的间隔。

我们有以下的观察结果：

如果一个超平面有非常接近的一个数据点，那么间隔会小。

如果一个超平面离数据点越远，那么间隔越大。

这意味着最优超平面将有最大的间隔。

我们后面也会看到SVM是利用间隔最大化求得最优分离超平面。

欢迎浏览SVM碎碎念part2：SVM中的向量与空间距离

————————————————

原文链接：https://blog.csdn.net/han_xiaoyang/article/details/52678373

最后编辑于：2021.05.21 14:24:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,884评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,755评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,369评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,799评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,910评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,096评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,159评论 3赞 411
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,917评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,360评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,673评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,814评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,509评论 4赞 334
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,156评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,882评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,123评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,641评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,728评论 2赞 351

机器学习系列(三)_SVM算法的part1：间隔

推荐阅读更多精彩内容