虽然叫做逻辑学习,但是其实是一个分类算法
1. 动机与目的
上图是分类学习的几个例子,判断邮件是否是垃圾邮件?是否存在金融诈骗?判断肿瘤是良性还是恶性?
二分类的意思就是结果只有两种可能的类,或两种可能的类别。
2. 逻辑回归
在上面我们讲了使用线性回归来解决分类问题是行不通的,而区分类别应该是一条曲线,类似于图一,图二是逻辑函数的曲线,公式是G(z)。
当z无穷大的时候g约等于1,反之g约等于0,当z等于0的时候,g=0.5.
我们使得Z=f(x),然后套入到逻辑函数中就得出图中右下角的公式。
这样如果我们根据一个肿瘤大小的数值算出的结果就是肿瘤是恶性的概率,比如是0.7意思就是该肿瘤是恶性的概率是70%,那么相对的良性的概率就是30%。
3. 决策边界
有些时候我们不希望这个函数给的是概率,而是希望直接给出0和1的值,直接告诉我们这个是恶性的还是良性的,这个时候我们可以设置一个阈值,通常设置为0.5,也就是说大于0.5,值为1,反之为0。
从逻辑函数图中我们可以清晰的看出来,当z大于0的时候,g值大于0.5,反之则小于0.5.
而z的值又等于f(x) = wx+b,所以说需要f(x)来判断是否大于0。
如图,影响y的值的变量有两个x1和x2,那么代入到代价函数中就是w1x1+w2x2+b,我们假设w1=1,w2=1,b=-3,那么如果要找到一条分界线,也就是区分g位1和0的分界线,就得找到f(x)=0的线,也就是 w1x1+w2x2+b = 0,代入数据,也就是x1+x2=3的线条。
这就是逻辑边界。
然后很多时候逻辑边界并不是一条简简单单的直线,如图中是一个圆,当我们在线性回归中使用多项式,如图那么计算下来 x1的平方和x2的平方和为1的公式,图形表示就是一个圆圈。
当然你也可能会遇到更加复杂的图形: