SVM总结

1. 请说一下SVM的原理/简要介绍SVM

SVM 是一种二分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器

  • 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机
  • 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机
  • 当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机

以上各种情况下的数学推导应当掌握,硬间隔最大化(几何间隔)、学习的对偶问题、软间隔最大化(引入松弛变量)、非线性支持向量机(核技巧)。


SVM

2. SVM 为什么采用间隔最大化

  • 当训练数据线性可分时,就会存在无数个分离超平面可以将训练数据正确的分开。
  • 线性可分支持向量机利用间隔最大化求得最优分离超平面,这时,解是唯一的。
  • 另一方面,此时的分隔超平面所产生的分类结果是最鲁棒的,对未知实例的泛化能力最强。


    间隔最大化

可以借此机会阐述一下几何间隔以及函数间隔的关系。

3. 为什么要将求解 SVM 的原始问题转换为其对偶问题

  • 一是对偶问题往往更易求解,当我们寻找约束存在时的最优点的时候,约束的存在虽然减小了需要搜寻的范围,但是却使问题变得更加复杂。为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点。
  • 二是可以自然引入核函数,进而推广到非线性分类问题。

4. 为什么 SVM 要引入核函数

  • 当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在高维特征空间内线性可分。
  • 而引入这样的映射后,所要求解的对偶问题的求解中,无需求解真正的映射函数,而只需要知道其核函数。
  • 核函数的定义:K(x,y)=<ϕ(x),ϕ(y)>,即在特征空间的内积等于它们在原始样本空间中通过核函数 K 计算的结果。
    • 一方面数据变成了高维空间中线性可分的数据,
    • 另一方面不需要求解具体的映射函数,只需要给定具体的核函数即可,这样使得求解的难度大大降低。


      为什么引入核函数

      特征映射

5. SVM 不同核函数之间的区别

一般选择线性核和高斯核,也就是线性核与 RBF 核。

  • 线性核:主要用于线性可分的情形,参数少,速度快,对于一般数据,分类效果已经很理想了。
  • RBF 核:主要用于线性不可分的情形,参数多,分类结果非常依赖于参数。
  • 如果 Feature 的数量很大,跟样本数量差不多,这时候选用线性核的 SVM。
  • 如果 Feature 的数量比较小,样本数量一般,不算大也不算小,选用高斯核的 SVM。

其他的还有

  • Sigmoid 核
    Sigmoid 核
  • Cosin 核
    Cosin 核
  • Chi-squared 核
    Chi-squared 核

6. 扩展SVM到支持多个类别

两种方法

  1. OVR (one versus rest): 对于K个类别的情况, 训练K个SVM, 第j个SVM用于判读任意条数据是属于类别j还是属于类别非j. 预测的时候, 具有最大值的 𝜃_i^𝑇 𝒙表示给定的数据 x 属于类别i.

  2. OVO (one versus one), 对于K个类别的情况, 训练K * (K-1) /2个SVM, 每一个SVM只用于判读任意条数据是属于K中的特定两个类别. 预测的时候, 使用K * (K-1) /2个SVM做 K * (K-1) /2次预测, 使用计票的方式决定数据被分类为哪个类别的次数最多, 就认为数据x属于此类别.

举例

7. 支持向量机的优势

  • 泛化性能比较好, 不容易过拟合
  • 可以在较少的数据下取得好的性能
  • 存在全局最优解
  • 存在高效实现的训练算法
  • 可以使用kernel trick处理非线性的问题

8. 缺点

  • 大规模训练样本(m阶矩阵计算) 速度慢
  • 传统的SVM不适合多分类
  • 对缺失数据、参数、核函数敏感

9. 为什么SVM对缺失数据敏感

  • 这里说的缺失数据是指缺失某些特征数据,向量数据不完整。
  • 因为SVM 没有处理缺失值的策略。而 SVM 希望样本在特征空间中线性可分,所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏

10. SVM推导

函数间隔—>几何间隔—>几何间隔最大化—>函数间隔最大化—>令r^=1—> max 变 min—->拉格朗日函数—->求解对偶问题的3个步骤
(1)线性可分 (2)线性近似可分 (3)线性不可分

SVM和LR的不同

1、样本点对模型的作用不同。SVM中,只有关键的样本点(支持向量)对模型结果有影响,而LR中,每一个样本点都对模型有影响。
2、损失函数不同。SVM是hinge损失函数,LR是log损失函数
3、理论基础不同。SVM基于严格的数学推导,LR基于统计。
4、输出不同。LR可以对每个样本点给出类别判断的概率值,SVM无法做到。
5、可处理的特征空间维度不同。LR在特征空间维度很高时,表现较差。SVM则可以通过对偶求解高效应对这一挑战。
6、防止过拟合能力不同。SVM模型中内含了L2正则,可有效防止过拟合。LR要自己添加正则项。
7、处理非线性分类问题能力不同。SVM可通过核函数灵活地将非线性问题转化为线性分类问题。LR如果要做到这一点,需要自己手动地进行特征转换。
8、处理分类问题能力不同。SVM只能处理二类分类问题,如果要处理多类别分类,需要进行 one VS one 或one VS all建模。LR可以直接进行多类别分类。
9、计算复杂度不同。对于海量数据,SVM的效率较低,LR效率比较高。
10、对数据要求不同。SVM依赖于数据表达出的距离测度,所以需要对数据进行标准化处理,而LR不需要。
11、能力范围不同。 SVM拓展后,可解决回归问题,LR不能。
12、可解释性不同。LR基于统计,可解释性比SVM好。
13、抗噪声数据能力不同。SVM的损失函数基于距离测度,抗噪声能力要强于LR。

参考:
https://cloud.tencent.com/developer/user/1478933
BAT面试题1:请简要介绍下SVM
机器学习面试篇:蚂蚁金服电话面试二
数据挖掘面试题之SVM和LR的不同
SVM 高频面试题
这样一步一步推导支持向量机,谁还看不懂
机器学习岗位面试问题汇总 之 SVM

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容