SVM支持向量机(一)

转自微信公众号:机器学习算法与Python学习

统计学习方法 & 小象学院

SVM算法优点:

可用于线性/非线性分类,也可以用于回归

低泛化误差

容易解释

计算复杂度低

缺点:

对参数和核函数的选择比较敏感

原始SVM只比较擅长处理二分类问题

它的基本模型是定义在特征空间上的间隔最大的分类器,间隔最大使它有别于感知机。

SVM还包括核技巧,这使它成为实质上的非线性分类器。

支持向量机的学习策略就是间隔最大化,可以形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。

支持向量机的学习算法是求解凸二次规划的最优化算法

方法包括:

1. 线性可分支持向量机

2. 线性支持向量机

3. 非线性支持向量机

线性可分时,通过硬间隔最大化,当数据近似线性可分时,通过软间隔最大化,当训练数据线性不可分时,通过使用核技巧及软间隔最大化

通过核函数可以学习非线性支持向量机,等价于隐式地在高维特征空间中学习线性支持向量机。这样的方法称为核技巧

关键点:支持向量机、核函数、序列最小优化算法SMO

一、线性可分与硬间隔最大化

假设输入空间与特征空间为两个不同的空间。输入空间为欧式空间或离散集合,特征空间为欧式空间或希尔伯特空间。假设这两个空间元素一一对应并将输入空间中的输入映射为特征空间中的特征向量。

非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量。所以输入都是由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的。

     假设给定一个特征空间上的训练数据集

其中xi为第i个特征向量,yi为xi类的标记。学习目标是在特征空间中找到一个分离超平面,wx+b=0

一般地,当训练数据线性可分时,存在无穷个分离超平面可将两类数据正确分开,感知机利用误分类最小策略,求得分离超平面,这时的解也是无穷多个的,因为解和初始解的选择和步骤有密切关系。

而线性可分支持向量机利用间隔最大化求最优分离超平面,这时解是唯一的。


--函数间隔与几何间隔

一般来说,一个点距离分离超平面的远近可以表示为分类预测的准信度,在超平面wx+b=0确定的情况下,|wx+b|能够相对地表示点x距离超平面的远近。所以可以用y(wx+b)来表示分类的正确性以及确信度,这就是函数间隔

函数间隔可以表示分类预测的正确性以及确信度,但是选择分离超平面时只有函数间隔是不够的,因为只要成比例地改变w和b,超平面并没有改变,但是函数间隔却变为原来的n倍。所以,我们需要对超平面的法向量w加上某些约束,如规范化,||w||=1,这样使得间隔是确定的,这时函数为几何间隔。


--间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。与感知机相比不仅将正负实例点分来,而且对于最难分的实例点(离超平面最近的点)也有足够的确信度将它们分开

原始问题


对偶问题

H1和H2平行,在其上的点称为支持向量

在决定分离超平面时只有支持向量起作用,而其他实例不起作用

支持向量的个数一般很少,所以支持向量机由很少的重要的训练样本决定


学习的对偶算法

通过求解对偶问题得到原始问题的最优解,优点是:1.对偶问题往往更容易求解;2. 引入核函数,推广到非线性分类问题

引入拉格朗日函数


其中alpha=(alpha1,...,alphan)T的拉格朗日乘子向量

为了得到对偶问题的解,首先对L(w,b,alpha)对w,b的极小,再对alpha求极大

将目标函数由极大转换为极小得到如下等价对偶最优化问题


补充KKT条件

对于含有不等式约束的优化问题,如何求取最优值呢?常用的方法是KKT条件,同样地,把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x),KKT条件是说最优值必须满足以下条件:

1. L(a, b, x)对x求导为零;

2. h(x) =0;

3. a*g(x) = 0;


也就是说,分类决策函数只依赖于输入x和训练样本输入内积。7.30称为线性可分支持向量机的对偶形式。

在此模型中w和b只依赖于训练数据中对应于alphai>0的样本点

线性支持向量机与软间隔最大化

通常,训练数据中有一些奇异点(outlier),将这些奇异点去除后剩下的大部分样本点是线性可分的。

线性不可分意味着某些样本点不满足函数间隔大于等于1的约束条件,因此我们可以引进一个松弛变量eta>=0

约束条件变为


目标函数变为

C>0称为惩罚参数,C值大对误分类的惩罚增大,C值小时对于误分类的惩罚减小。

目标函数包含两层含义:使1/2||w||^2尽量小即间隔尽量大,同时使得误分类点的个数尽量小,C是协调二者的关系。

变为如下凸二次规划问题原始问题


解为(w,b,eta)


学习的对偶算法



由于原始问题对于b的解并不唯一,所以实际计算可以取在所有复合条件的样本点上的平均值

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,123评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,031评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,723评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,357评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,412评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,760评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,904评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,672评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,118评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,456评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,599评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,264评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,857评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,731评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,956评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,286评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,465评论 2 348

推荐阅读更多精彩内容