深度学习概论
神经网络属于监督学习,并彻底改变了监督学习。神经网络这个概念不是近几年才有,但是却是近几年兴起的。那么是什么原因促成了神经网络和深度学习的兴起呢?规模。这里的规模不仅指神经网络架构的规模,也指数据的规模。规模的增长使得神经网络和深度学习在机器学习各个算法中拔得头筹。正是由于规模的驱动,深度学习将在未来几年持续不断地发展。
随着互联网的发展,海量的数据成为一种资源。总的来讲,这些数据可以被分为结构化数据(Structured Data)和非架构化数据(Unstructured Data)。其中,结构化数据典型的代表即数据库数据,非结构化的数据包括音频、图像和文本等,结构化的数据更容易被计算机理解。毋庸置疑,深度学习在处理非结构化数据方面有着明显的优势。总的来说,神经网络架构有以下几种:
- 通用的标准的神经网络(Universally Standard Neural Network)
- 卷积神经网络CNN(Convolutional Neural Network)
- 循环神经网络RNN(Recurrent Neural Network)
其中,CNN多用于处理图像,RNN多用于处理序列数据(音频,单词语言,含有时间成分的一维时间序列等)。
神经网络基础
梯度下降法(Gradient Descent)
下图所示为logistic回归算法,其中,J为成本函数。我们的目标是找到使得成本函数最小的w和b。梯度下降法的思路为:用某初始值初始化w和b,从初始点开始,试图沿着最快下降方向往下走,这样就很有希望达到全局最优解或者接近全局最优解。
核心算法为如下所示的两个公式:
向量化(vectorization)
向量化的作用即是消除代码中显式的for循环语句。在编写新的网络或者在进行回归时,尽量避免for循环。
import numpy as np
import time
//向量化版本
a = np.random.rand(1000000)
b = np.random.rand(1000000)
tic = time.time()
c = np.dot(a,b)
toc = time.time()
print("Vectorized version:" + str(1000*(toc-tic)) + "ms")
//for循环版本
c = 0
tic = time.time()
for i in range(1000000):
c += a[i]*b[i]
toc = time.time()
print("for loop" + str(1000*(toc-tic)) + "ms")
输出结果:
250224.435665
Vectorized version:1.0025501251220703ms
250224.435665
for loop717.5307273864746ms
其他可以向量化的例子:
np.exp(v)
np.log(v)
np.abs(v)
np.maximum(v)
向量化logistic回归
Python中的广播
Python中的广播为在进行科学计算的时候经常用到的一种技术。总的来说,就是将一个(m,n)维的矩阵和一个向量相加时,向量会自动扩展为和矩阵相同的维数,而后与矩阵进行计算。
编程技巧
在进行神经网络编程时,要注意不要使用秩为1的数组。
a = np.random.randn(5)
应该使用如下所示的数组:
a = np.random.randn(5,1)
浅层次神经网络
神经网络的表示
如上图所示的网络通常被认为是三层神经网络,因为它一共有三层:输入层、隐含层和输出层,而在学术论文里大多被称为二层神经网络:第一层(隐含层)和第二层(输出层)。
根据示意图,可以列出如下四个向量化的方程,每个向量的维度都在下面标出。
激活函数
激活函数有多种:
1.Sigmoid函数
该函数的值域为[0,1]。
2.tanh函数
该函数的值域为[-1,1],并通过原点。
3.修正线性单元(Rectified Linear Unit)
该函数在z<0时,斜率为0;在z>0时,斜率为1;在z=0时,导数没有定义。
4.带泄露的修正线性单元(Leaky ReLU)
可能的公式为:
不同激活函数的对比:
1.对于Sigmoid函数,除非用在二元分类的输出层,不然绝对不要用。
2.大多数场合下,tanh函数比Sigmoid函数更加优越。
3.最常用的默认激活函数是ReLU函数,如果不确定用哪个就用这个,或者也可以试试带泄漏的ReLU函数。
4.最有效的还是自己尝试跑一下程序,选择一个最适合自己应用的。
使用非线性激活函数的原因
因为线性函数的组合还是线性函数,这样就无法引入更多更复杂的函数。一般除了在做回归的时候在输出层可以用到线性激活函数,其他情况很少用线性激活函数。
反向传播
如前所述,二层神经网络的正向传播需要四个方程,而反向传播则需要6个方程。
向量化的版本如下:
随机初始化参数
-
W不能初始化为0矩阵,b可以初始化为元素均为0的矩阵。
- 要乘以0.01,是因为一般参数会初始化为比较小的数,否则在使用激活函数时z的值容易落到函数饱和的区段,使得学习速度减慢。
深层神经网络(Deep Neural Network)
为什么使用深层表示
- 关于深层表示的直觉
当进行人脸识别时,可以把神经网络中的当做是边缘探测器,来探测输入图片的边缘,比如有的神经元探测到鼻子的部分而有的探测到眼睛的部分,然后就可以开始检测人脸的不同部分,最后再把这些部分放在一起,就可以识别不同的人脸了。
- 电路理论和深度学习
深度神经网络有效的另外一个支持理论来源于电路理论。使用一些基本的逻辑门来表示一些函数直观上就像使用一些基本的神经元来表示一些函数一样。非正式地讲,有些函数如果使用深层网络表示的话,每层的神经元的数量可以比较少;如果使用浅层的神经网络的话,则每一层的神经元的数量呈指数增长。
深层网络的前向传播
L层的正向传播方程如下:
这里需要用到for循环。以层数为循环次数,对每一层进行传播方程的求解。
核对矩阵的维数
在进行编程时,有效的排除一些bug的方法是把参与计算的矩阵维数从头到尾核对一遍。经过推导,我们可以得到矩阵的维数的一些规律。
其中,m为训练样本集的数目,n^[l]为第l层的神经元的个数。
搭建深层神经网络块
深层神经网络块主要包括正向传播和反向传播两个流程,大致计算流程如下图:
参数和超参数
神经网络的性能的高低很大程度上取决于我们设置的参数和超参数。其中,W和b为我们经常提到的参数;而学习率(learning rate)、迭代次数、隐含层层数、隐层单元个数、激活函数的选择等这些参数则控制着最后的W和b这两个参数,因此被称为超参数(hyper parameters)。
除了上面提到的超参数,深度学习中还有很多不同的超参数,比如:动量项(momentum term)、最小批次大小(mini batch size)、正则化参数(regularization parameters)
深度学习的应用是一个经验过程,我们需要不断地尝试、编码、实验,不断地积累和总结经验。直到我们有了设置参数的灵感和直觉。