Q1:如何将两组数据分开? 红的和蓝的
A1:尝试画了好多线都可以把他们分开,只要把握好关键的几个球球,画几个切线就是分隔线的区域。橙色部分可以画无数条线。
Q2:这么多条线,有没有一条最靠谱?
A2:其实就这么多点,只要完成了分类都很靠谱。但是。如果。假设。若非。。还有其他的点。有一条线,它能接着正确划分的概率比较大。只是概率比较大。
这是一个影响力的角逐,红队和蓝队,每一个球都会给这个棍棒一个远离他们的垂直作用力。你推我让中,双方的力量达到一个平衡,引出特征空间上间隔最大的线性分类器。SVM(support vector machine).
Q3:有些点就比较坑爹了,你怎么拿直线分?
A3:直线分不了用曲线。借用大神的解释。好比一拍桌子,红球和篮球都弹到了空中,不管多少维,总有一个N可以将他们分开,比如下图的三维空间,可以用二维的平面把他们分开。而这个二维的平面就是在桌子上的投影就是那个曲线。
引出几个概念
1.hyperplane 超平面,就是三维立体中的二维平面,也就是分类的决策边界。分布在超平面的一侧的所有数据都属于某个类别,而分布在超平面的另一侧的所有数据则属于另一个类别。
2.margin,球球到分隔面的距离称为间隔。我们希望间隔尽可能的大,这是因为我们犯错或者在有限数据上训练分类器的话,我们希望分类器尽可能健壮。
3.support vector. 支持向量,就是离分隔面最近的那些点,这些球球相比距分隔面较远的点,更加决定分隔面的角度。接下来,试着最大化支持向量到分隔面的距离,需要找到此问题的优化求解方法。