机器学习系列(三)_SVM算法的part1:间隔

姓名:黄永飞;学号:17040520006;学院:机电工程学院;

转自:

http://blog.csdn.net/han_xiaoyang/article/details/49797143

【嵌牛导读】机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。在机器学习中,SVM这么神圣的算法可能是每个学习者会头痛却又不得不面对的,下面是SVM算法系列,进行详细讲解算法的使用和应用。

【嵌牛鼻子】SVM算法 逻辑回归 间隔 

【嵌牛提问】什么是SVM算法?其用法和原理是什么?如何让理解最大间隔?

1.支持向量机(SVM)的目标是什么

SVM的目标是利用训练数据集的间隔最大化找到一个最优分离超平面

首先和逻辑斯蒂回归和朴素贝叶斯一样,我们需要一些打标签的数据用于训练,这也就是说SVM是一个有监督学习算法。

同样,SVM是一个分类算法,和逻辑斯蒂回归和朴素贝叶斯一样,可以用于预测数据属于哪个类别。

典型的分类问题比如结果预测(比如泰坦尼克号生存结果)和垃圾邮件分类,或者下面这个简答的人群分类小例子:


上图是人的身高和体重绘制的散点图,使用支持向量机(SVM),可以尝试回答以下问题:

给定一个特定的数据点(重量和高度),这个人是一个男人还是一个女人?

例如:有人高175厘米,重80公斤,他是男人还是女人呢?

2.什么是分离超平面

在图中我们可以看出,我们是有办法可以分离这两类样本点的。例如:我们可以画一条线,使得所有的男性数据点在直线上方,所有的女性数据点在直线的下方。我们知道在逻辑斯蒂回归当中,这条直线叫做决策边界,在SVM当中我们暂且把它叫做分离超平面,大概是下图这个样子的,但是它和LR里面的决策边界有一些小小的不同,一会儿我们会提到。


如果它仅仅是一条线,我们为什么称它为一个超平面?

上面只是二维空间中的一个小例子,但事实上SVM在任意维度上均有效。

超平面是平面的一般化

在一维的平面中,它是点

在二维中,它是线

在三维中,它是面

在更高的维度中,我们可以称之为超平面


点L是一维空间下的分离超平面

什么是最优分离超平面?

OK,重点来了,刚才提到了逻辑斯蒂回归当中,有个类似的概念叫做决策边界,在SVM当中把它叫做分离超平面,事实上,你找到了一个分离超平面,但那不意味着它是最优的那个!

回到刚才的例子中,我们可以找到好几个分离超平面。他们每一个都是正确的,可以成功将数据集中的男性和女性划分两边。


但是是不是说这些分离超平面都一样好呢?

OK,咱们一起来看看,假设我们选择那个绿色的分离超平面,然后咱们用在现实生活中的数据上进行分类。


你会发现有一些女性被分错了!!直观上非常好理解,这个分类超平面太接近女性(红色样本点)了,那它对noise/异常点/临近边界的点处理得并不好。

所以大家都想到了,我么要选择这样一个超平面–尽可能的远离所有类别的数据点:


这次看起来好多了,再用刚才新加的样本点去分类,你发现这次它健壮多了,可以好好地把它们分对了。


对,这就是SVM要做的事情,支持向量机就是要找到这样一个最优分类超平面,保证:

正确地对训练数据进行分类

对未知数据也要进行很好的分类

.

所以这和Margin/间隔有什么关系呢?又怎么找到它呢


对应上图,一句话概括:Margin就是最优分离超平面的间隔。

给定一个特定的超平面,我们可以计算出这个超平面与和它最接近的数据点之间的距离。间隔(Margin)就是二倍的这个距离。

一般来说,间隔(Margin)中间是无点区域。这意味着里面不会有任何点。(注:在数据有噪声的情况下,可能达不到这么理想的状况,所以我们后面会引入软间隔分类器)

我们从刚才的分割超平面里再选一个,间隔(Margin)会看起来像这样:


可以清楚地看出,B的间隔要小于A的间隔。

我们有以下的观察结果:

如果一个超平面有非常接近的一个数据点,那么间隔会小。

如果一个超平面离数据点越远,那么间隔越大。

这意味着最优超平面将有最大的间隔。

我们后面也会看到SVM是利用间隔最大化求得最优分离超平面。

欢迎浏览SVM碎碎念part2:SVM中的向量与空间距离

————————————————

版权声明:本文为CSDN博主「寒小阳」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/han_xiaoyang/article/details/52678373

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容

  • 分类和回归是机器学习可以解决两大主要问题,从预测值的类型上看,连续变量预测的定量输出称为回归;离散变量预测的定性输...
    leon_kbl阅读 5,905评论 0 4
  • 1. 基本概念 SVM,全称是Support Vector Machine,中文名叫支持向量机。SVM的基本模型是...
    高永峰_GYF阅读 2,165评论 0 0
  • SVM 看了很多关于SVM的博客,但是常常只能保存书签之后看,有时候有的博客就突然没了,这里就作为搬运工总结一下之...
    瞎了吗阅读 14,133评论 0 3
  • 二分类评价指标 准确率: 缺点:在数据类别不平衡的时候使用这个评价指标不能客观评价算法的优劣。混淆矩阵首先定义:T...
    wenyilab阅读 854评论 0 0
  • 一、什么是支持向量机 支持向量机(supportvectormachine),故一般简称SVM,通俗来讲,它是一种...
    owolf阅读 4,752评论 0 3