《神经网络与机器学习》笔记(一)

《神经网络与深度学习》笔记

本书组织架构

入门篇


第一章 绪论

特征表示方法

局部特征

含义:也称为离散表示符号表示,通常是用one-hot向量的形式

优点:

  1. 这种离散的表示方式具有很好的解释性
  2. 因为向量稀疏,所以用于线性模型时计算效率非常高

缺点:

  1. one-hot向量维数太高,不能扩展(因为维数是由词表大小决定的)
  2. 不同向量之间的相似度为0,无法进行相似度计算

分布式表示

含义:也称为*分散式表示,如NLP中的词嵌入,是用语义空间的基向量进行表示的

优点:

  1. 可以表示成低维的稠密向量
  2. 表示能力强,维数可以指定
  3. 相似度容易计算

缺点:

  1. 解释性不强
深度学习需要解释的问题是:贡献度分配问题

第二章 机器学习概述

损失函数

\begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\left\{\begin{array}{ll}{0} & {\text { if } y=f(x ; \theta)} \\ {1} & {\text { if } y \neq f(x ; \theta)}\end{array}\right.\\ &=I(y \neq f(x ; \theta)) \end{aligned}\\ 0-1损失函数,能够客观的评价模型好坏,但数学性质不好,不连续且导数部位0,难以优化。

平方损失函数:\mathcal{L}(y, f(x ; \theta))=\frac{1}{2}(y-f(x ; \theta))^{2}\\ 经常用在预测标签y 为实数值的任务中,平方损失函数一般不适用于分类问题。因为输入和输出不为连续值。

交叉熵损失函数:一般用于分类问题(衡量两个概率分布的差异:即标签真实分布y和模型预测分布f(x;\theta)之间的交叉熵)\\ \mathcal{L}(\boldsymbol{y}, f(\boldsymbol{x} ; \theta))=-\sum_{c=1}^{C} y_{c} \log f_{c}(\boldsymbol{x} ; \theta)\\ 由上公式可知,交叉熵损失函数也就是 负对数似然损失函数

Hinge损失函数:在二分类问题中,假设y的取值为{-1,+1},f(x;\theta)\in\mathbb{R}:\\ \begin{aligned} \mathcal{L}(y, f(x ; \theta)) &=\max (0,1-y f(x ; \theta)) \\ & \triangleq[1-y f(x ; \theta)]_{+} \end{aligned} \\ 其中[x]_+=max(0,x)

优化方法

批量梯度下降算法:计算量太大

随机梯度下降算法:无法利用计算机的并行性

小批量梯度下降法:前两者的折中,是目前最主要的优化算法

参数学习

机器学习任务可以分为两类: 一类是样本的特征向量x 和标签y 之间存在未知的函数关系y = h(x),另一类是条件概率p(y|x) 服从某个未知分布。最小二乘法是属于第一类,直接建模x 和标签y 之间的函数关系。此外,线性回归还可以通过建模条件概率p(y|x) 的角度来进行参数估计。

经验风险最小化

可以用平方损失函数来计算:
\begin{aligned} \mathcal{R}(\boldsymbol{w}) &=\sum_{n=1}^{N} \mathcal{L}\left(y^{(n)}, f\left(\boldsymbol{x}^{(n)} ; \boldsymbol{w}\right)\right) \\ &=\frac{1}{2} \sum_{n=1}^{N}\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}\right)^{2} \\ &=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2} \end{aligned}\\ 用最小二乘法求得最优参数:\begin{aligned} w^{*} &=\left(X X^{\mathrm{T}}\right)^{-1} X y &=\left(\sum_{n=1}^{N}x^{(n)}\left(x^{(n)}\right)^{\mathrm{T}}\right)^{-1}\left(\sum_{n=1}^{N} x^{(n)} y^{(n)}\right) \end{aligned}\\ 用最小二乘法进行计算有个限制:XX^T必须存在逆矩阵,也就是说X中得行向量必须是线性无关的。\\ 当XX^T不可逆时,有两种方法:1)使用主成分分析等方法先预处理数据,消除特征间的相关性,再用最小二乘法。\\ 2)通过梯度下降法来估计参数,然后用最小均方(LMS)法:w \leftarrow w+\alpha X\left(y-X^{\mathrm{T}} w\right)

结构风险最小化

为了解决最小二乘法中,因为特征间的多重共线性而导致计算不准确的问题,出现了岭回归,即给XXT的对角线元素都加上一个常数λ使得(XXT+λI)满秩。从而最优参数w^*=(XX^T+\lambda I)^{-1}X y.

岭回归可以看作是结构风险最小化准则下的最小二乘法估计。且其目标函数可以写为:
\mathcal{R}(\boldsymbol{w})=\frac{1}{2}\left\|\boldsymbol{y}-X^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\frac{1}{2} \lambda\|\boldsymbol{w}\|^{2}

第三章 线性模型

四种不同的线性分类模型:Logistic回归、Softmax回归、感知机和支持向量机

线性判别函数和决策边界

最简单的是二分类:只需要一个线性判别函数:f(x;w)=w^Tx+b。决策边界就是特征空间\mathbb{R}^{d}中所有满足f(x;w)=0的点组成的一个分割超平面。

多分类:是指分类的类别数C大于2。设计多分类的判别函数有三种常用方法:

  1. “一对其余”方式,也就是转化成C个“一对其余”的二分类问题,这需要C个判别函数。

  2. “一对一”方式,就是转化成C(C-1)/2个“一对一的”二分类问题。。这种方式共需要C(C − 1)/2 个判别函数,其中第(i, j) 个判别函数是把类别 i 和类别 j 的样本分开。

  3. “argmax”方式:是一种改进的“一对其余”方式,需要C个判别函数:

    f_c(x;w_c)=w^T_cx+b_c, c=[1,\dots,C],对于样本x,如果存在一个类别c,相对于所有的其他类别˜c(˜c≠ c) 有fc(x;wc) > f˜c(x,w˜c),那么x 属于类别c。“argmax”方式的预测函数定义为:

    y=argmax^C_{c=1}f_c(x;w_c)

“一对其余”方式和“一对一”方式都存在一个缺陷:特征空间中会存在一些 难以确定类别的区域,而“argmax”方式很好地解决了这个问题:

Logistic 回归

是一种常用的处理二分类问题的线性模型。

为了解决连续的线性函数不适合进行分类的问题,我们引入非线性函数g:\mathbb{R}^d\rightarrow(0,1)来预测类别标签的后验概率p(y = 1|x)。p(y=1|x)=g(f(x;w))

其中g(\cdot)通常被称为激活函数,其作用是把线性函数的值域从实数“挤压”到(0,1)之间,可以用来表示概率。。在统计文献中,g(·) 的逆函数g−1(·) 也称为联系函数(Link Function)。

在Logistic 回归中,激活函数就是Logistic 函数,标签y=1的后验概率为:p(y=1|x)=\sigma\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)\triangleq \frac{1}{1+\exp \left(-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)}

Logistic 回归采用交叉熵作为损失函数:

\mathcal{R}(w)=-\frac{1}{N} \sum_{n=1}^{N}\left(p_{r}\left(y^{(n)}=1 | x^{(n)}\right) \log \hat{y}^{(n)}+p_{r}\left(y^{(n)}=0 | x^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)\\=-\frac{1}{N} \sum_{n=1}^{N}\left(y^{(n)} \log \hat{y}^{(n)}+\left(1-y^{(n)}\right) \log \left(1-\hat{y}^{(n)}\right)\right)

采用梯度下降法来对参数进行优化:\boldsymbol{w}_{t+1} \leftarrow \boldsymbol{w}_{t}+\alpha \frac{1}{N} \sum_{n=1}^{N} \boldsymbol{x}^{(n)}\left(y^{(n)}-\hat{y}_{\boldsymbol{w}_{t}}^{(n)}\right)

Softmax 回归

也称为多项或多类的Logistic 回归,是Logistic 回归在多分类问题上的推广。

对于多类问题,类别标签y ∈ {1, 2, · · · ,C}可以有C个取值。y是用one-hot向量表示的,给定一个样本x,Softmax 回归预测的属于类别c 的条件概率为:
\begin{aligned} p(y=c | \boldsymbol{x}) &=\operatorname{softmax}\left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right) \\ &=\frac{\exp \left(\boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x}\right)}{\sum_{c^{\prime}=1}^{C} \exp \left(\boldsymbol{w}_{c^{\prime}}^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned}
其中wc是第c类的权重向量。上述公式向量表示为:
\begin{aligned} \hat{\boldsymbol{y}} &=\operatorname{softmax}\left(W^{\mathrm{T}} \boldsymbol{x}\right) =\frac{\exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)}{1^{\mathrm{T}} \exp \left(W^{\mathrm{T}} \boldsymbol{x}\right)} \end{aligned} ,1为全1向量
Softmax 回归的决策函数可以表示为:
\begin{aligned} \hat{y} &=\underset{c=1}{\arg \max } p(y=c | \boldsymbol{x}) \\ &=\underset{c=1}{\arg \max } \boldsymbol{w}_{c}^{\mathrm{T}} \boldsymbol{x} \end{aligned}
与Logistic 回归的关系:当类别数C = 2 时,Softmax 回归的决策函数为:
\begin{aligned} \hat{y} &=\underset{y \in\{0,1\}}{\arg \max } \boldsymbol{w}_{y}^{\mathrm{T}} \boldsymbol{x} \\ &=I\left(\boldsymbol{w}_{1}^{\mathrm{T}} \boldsymbol{x}-\boldsymbol{w}_{0}^{\mathrm{T}} \boldsymbol{x}>0\right) =I\left(\left(\boldsymbol{w}_{1}-\boldsymbol{w}_{0}\right)^{\mathrm{T}} \boldsymbol{x}>0\right) \end{aligned}
二分类中的权重向量w=w_1-w_0

Softmax 回归也采用交叉熵损失函数,其风险函数为:
\begin{aligned} \mathcal{R}(W) &=-\frac{1}{N} \sum_{n=1}^{N} \sum_{c=1}^{C} \boldsymbol{y}_{c}^{(n)} \log \hat{\boldsymbol{y}}_{c}^{(n)} =-\frac{1}{N} \sum_{n=1}^{N}\left(\boldsymbol{y}^{(n)}\right)^{\mathrm{T}} \log \hat{\boldsymbol{y}}^{(n)} \end{aligned}\\其中\hat{y}^{(n)} = softmax(W^Tx^{(n)}) 为样本x^{(n)} 在每个类别的后验概率
风险函数\mathcal{R}(W) 关于W 的梯度为 \frac{\partial \mathcal{R}(W)}{\partial W}=-\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(\boldsymbol{y}^{(n)}-\hat{\boldsymbol{y}}^{(n)}\right)^{\mathrm{T}}
采用梯度下降法,Softmax 回归的训练过程为:初始化W~0~ ← 0,然后通过下式进行迭代更新:\\ W_{t+1} \leftarrow W_{t}+\alpha\left(\frac{1}{N} \sum_{n=1}^{N} x^{(n)}\left(y^{(n)}-\hat{y}_{W_{t}}^{(n)}\right)^{\mathrm{T}}\right)

感知器

是一种线性分类器,也是最简单的人工神经网络

感知器的学习算法是一种错误驱动的在线学习算法。先初始化一个权重向量w\leftarrow0(通常是全零向量),然后每次分错一个样本(x, y)时,即yw^Tx<0,就用这个样本来更新权重,采用随机梯度下降。w\leftarrow w+yx

但是感知器的权重更新与样本的顺序有关,只要每次迭代的顺序不一致时,找到的分割超平面也往往不一致。同时,如果训练集不是线性可分的,就永远不会收敛。

为解决对样本顺序的依赖问题,提出了参数平均感知器。

同时,将感知器在多分类上进行扩展,可以得到广义感知器。

支持向量机

参照《西瓜书》

小结

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容

  • 在美国,对学业成就的最佳预测指标,就是家庭情绪的稳定性,而家庭情绪稳定性大部分可被妻子的情绪所预测。 简而言之: ...
    y诗淇阅读 238评论 0 0
  • 昨天晚上我睡在炕上,准备入眠,突然妈妈冲了进来,让我赶紧离开屋子,我问怎么了,她说,地震了。 出来打开手机一...
    控卫阅读 133评论 0 0
  • 失去一个人,从现在起不要有任何联系,如果对方主动联系你,说明心里还有你,如果没有,也就没有联系的必要了。情淡了、 ...
    蒲公英样的人阅读 210评论 0 11
  • 1还是决定辞掉天府这份工了。 实在很累,也消耗很多时间和精力。 每次回去都是问题,都需要18刀Uber;这样的工作...
    Fishtail鱼尾阅读 247评论 0 1