假设有个样本为,其中为第个样本的特征,为第个样本的标签。
logistic regression的hypothesis为:
从上式的logistic函数可知的取值在之间,对于二分类任务而言,,因此可以假设为取某个值时的概率分布,即:
即:
个样本的似然函数为:
对似然函数取对数可得:
最大化对数似然函数,求对数似然函数对的导数,即求。
对于一般的logistic函数对其求导可得:
因此:
对进行梯度更新,可得:
注意:因为是最大化似然函数,所以使用梯度更新的时候是相加而非相减。为学习率。对比一下最小二乘拟合,可以发现,两者的梯度更新非常相像,不同点在于logistic regression是要最大化似然函数,所以采用了梯度上升的策略,而最小二乘采用的是最小化均方误差损失函数,所以采用了梯度下降的策略进行梯度更新。
references:
http://cs229.stanford.edu/notes/cs229-notes1.pdf