机器学习之SVM(简单理解)

应该对现有流行并将继续流行下去的分类模型有深刻的了解。随机森林和支持向量机(svm)
上篇文章简单介绍了随机森林，这篇文章简单介绍一下支持向量机(svm)。
偏重应用，轻数学解释推导。

线性分类器

一个非常简单的分类问题。

image.png

用一条直线，将两种颜色的点分开，如图所示(可以有无数条这样的直线)。
假如将黑点记作-1，白点+1。直线f(x) = wx+b。这里的x， w是向量，其实也可以写成这种形式。f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0)，当向量x的维度是2的时候，f(x)表示二维空间中的一条直线，当x的维度等于3的时候，f(x)表示3维空间中的一个平面；当x的维度n大于3的时候，表示的是n维空间中的n-1维超平面。
当有一个新的点需要预测分类的时候，就用sgn(f(x))。sgn表示符号函数，当f(x) > 0, 属于黑点；否则属于白点。

但是，对于无数条可能的直线，哪条效果是最好的？

image.png

直观感受，让这条直线到给定样本中最近的点距离最远，如下图的两种分法，2效果好。

image.png

从直观上来说，分割的间隙越大越好，把两个类别的点分得越开越好。
在SVM中，成为Maximum Marginal，是svm的一个理论基础之一。
选择是的空隙最大的函数是有很多道理的。比如从概率的角度讲，就使的置信度最小的点置信度最大。
上图中被红色和蓝色的线圈出来的点就是所谓的支持向量(support vector)。