[監督式]Logistic Regression(邏輯回歸)

回顧分類問題

Logistic Regression

可分為3個部分，1.定義Function set，2.定義Loss function，3.做Gradient Descent。

Function Set

這邊我們先以二元分類來說明。

定義假設函數
與Gradient Descent一樣，我們需要定義一個hypothesis set，hypothesis set是可能產生我們手上資料的函數集合。
在之前分類問題中有講到，分類問題的機率可以用機率分佈推得，然而這樣的概念可以延伸到Logistic Regression。
注意： $x^j_i$ 表示第 $j$ 筆資料的第 $i$ 個特徵。

邏輯回歸與線性回歸hypothesis set之差異

Loss Function

定義L(loss function)

$N$ ：樣本數。
$P_{w,b}(C_1|x)$ ：特徵x確定時， $\hat{y}=C_1=1$ 的機率。
$P_{w,b}(C_2|x)$ ：特徵x確定時， $\hat{y}=C_2=0$ 的機率。
假設 $C_1$ 資料由 $P_{w,b}(C_1|x)=P_{w,b}(\hat{y}=1|x)=f_{w,b}(x)=\sigma\left(\sum_{i=1}^{N}w_ix_i+b\right)$ 這個機率分佈所產生的， $C_2$ 資料 $=P_{w,b}(\hat{y}=0|x)=f_{w,b}(x)$ 。

$L(w,b)$ 就是由這些數據點產生 $P_{w,b}(\hat{y}|x)$ 的機率，因為每個數據點獨立所以等於由每個數據點產生 $\hat{y}$ ( $f_{w,b}(x^1)、f_{w,b}(x^2)、(1-f_{w,b}(x^3))...$ )機率的乘積。
我們要找到某個 $(w,b)$ 使 $L$ 這個機率最大，就是求斜率等於零(函數的最高點或最低點)，找到的這個 $(w,b)$ 就是 $P(x|C_1)$ 的 $(w,b)$ 。
注意：因為 $x^3$ 是 $C_2$ ，所以 $x^3$ 產生 $C_2$ 的機率為 $(1-f_{w,b}(x^3))$ ， $f_{w,b}(x^3)$ 是 $x^3$ 產生 $C_1$ 的機率。

求最大值轉換為求最小值
左右同乘( $-ln$ )， $L(w,b)$ 越大， $-ln\left(L(w,b) \right)$ 就越小，所以需要求 $-ln\left( L(w,b) \right)$ 最小值。
二項分佈與hypothesis set之關係
二項分佈
二項分佈當 $n=1$ 時，就是白努力分佈。所以 $C(n,x)$ 永遠等於1，這邊圖一的 $x$ 就是 $\hat{y}$ 。
$\hat{y}$ 等於白努力分佈成功X次( $0\ge\hat{y}\le1$ )， $p=p(x)=f_{w,b}(x)$ ， $q=q(x)=1-f_{w,b}(x)$
所以出現 $\hat{y}$ 次成功的機率為： $p(\hat{y}|x)=p(x)^{\hat{y}} \cdot q^{1- \hat{y}}= f_{w,b}(x)^{\hat{y}} \cdot (1-f_{w,b}(x))^{1-\hat{y}}$

圖一

$-ln(p(\hat{y}|x))$
$-ln(p(\hat{y}|x)) = -ln(f_{w,b}(x)^{\hat{y}} \cdot q^{1- \hat{y}})$
$=-[ln(f_{w,b}(x)^{\hat{y}}) + ln((1-f_{w,b}(x))^{1-\hat{y}})]$
$=-[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]$
$-ln(f_{w,b}(x))$ 由圖三可證明：
$-ln(f_{w,b}(x)) = -ln(p(\hat{y}=1|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]，\hat{y}代入1$
$-ln(1-f_{w,b}(x)) = -ln(p(\hat{y}=0|x)) = -[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]，\hat{y}代入0$
所以可以推得：
$-ln(L(w,b)) = \sum_{j=1}^{N}-[\hat{y}^jln(f_{w,b}(x^j)) + (1-\hat{y}^j)ln(1-f_{w,b}(x^j))]$
$=-ln(\prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right))$ ( $∏$ 為所有數值的乘積)
結論： $L(w,b) = \prod_{j=1}^NP_{w,b}\left({\hat{y}^j|x^j}\right)$

圖二

圖三

Cross entropy(交叉熵)概念
Cross entropy相關文章。
Cross-Entropy(交叉熵)形式
實際的機率分佈( $\hat{y}$ )與我們找到的機率分佈( $f_{w,b}(x)$ )的Cross-Entropy的公式為： $H(\hat{y}||f_{w,b}(x)) = \sum_{c=1}^{2}\hat{y}\left(c\right) \cdot \log_e\left(\frac{1}{f_{w,b}(x)\left(c\right)}\right) = -\sum_{c=1}^{2}\hat{y}\left(c\right) \cdot \log_e\left({f_{w,b}(x)\left(c\right)}\right)$
☆ $p_1= P_{w,b}(x)_1$ ，這是實際上產生 $C$ 的function，它與 $p_2$ 有不同的 $p(x)$ 。
☆ $[c=1,p_1=\hat{y}], [c=0,p_1=1-\hat{y}]$
★ $p_2 = P_{w,b}(x)_2$ ，這是我們找到的產生 $C$ 的Function，它與 $p_1$ 有不同的 $p(x)$ 。
★ $[c=1,p_2=f_{w,b}(x)]，[c=0,p_2=1-f_{w,b}(x)]$
代入cross entropy後得 $-[\hat{y}ln(f_{w,b}(x)) + (1-\hat{y})ln(1-f_{w,b}(x))]$
注意: $\hat{y}$ 為機率分佈， $\hat{y}^j$ 為機率
結論：
$-ln(L(w,b))$ 就是在求兩個 $P_{w,b}(x)$ ，實際的機率分佈( $\hat{y}$ )與我們找到的機率分佈( $f_{w,b}(x)$ )的Cross entropy，Cross entropy 越小表示找到的function與實際越接近。
所以我們可以直接定義Loss function為 $L(f)=\sum_{j=1}^{N}Cross　entropy(f(x),\hat{y})$ 。

邏輯回歸與線性回歸loss function之差異

最佳的hypothesis

對Loss function( $L(f)$ )做Gradient Descent找最小值。
cross entropy與square error差異
square error再距離目標很遠時，比較平坦，更新速度慢，cross entropy再距離目標很遠時很陡峭，更新速度快。

Discriminative v.s. Generative

Discriminative 比較 Generative
假設有一個分佈為 $\sigma(w,b)$ 去定義Loss Function這方法稱為Discriminative ，而分類問題那篇我們使用假設高斯分佈去推測機率的方法稱為Generative。
然而他們找出來的答案不會是一樣的，Generative我們假設資料是高斯分佈，而Discriminative 我們假設資料為任何機率分佈，通常Discriminative model會比Generative
model表現得更好。
當資料少的時候，有時候加一些假設或許會有比較好的結果。

多類別分類(Multi-class Classification)

我們有3個類的時候，我們想像成求3個二元分類問題。
$m$ 個樣本、 $n$ 個特徵、 $K$ 個類別， $\theta^T=w^T$ ，將 $x$ 多一個全為 $1$ 的特徵， $b$ 換成 $w_0$ 。

Softmax
Softmax函數：將值映射成 $0～1$ 之間的值，所有值之和等於 $1$ 。
$Softmax([z_1,z_2,z_3])=\left[\frac{e^{z_1} }{\sum_{j=1}^{3}e^{z_j}},\frac{e^{z_2} }{\sum_{j=1}^{3}e^{z_j}},\frac{e^{z_3} }{\sum_{j=1}^{3}e^{z_j}}\right] = function set$ 。
Softmax的Hypothesis and Loss function and gradient
$I\left\{ y^i=j \right\}$ ，如果 $\left\{ y^i=j \right\}$ 成立，則 $I=1$ ，否則 $I=0$ 。