姓名:寇世文
学号:21011110234
学院:通信工程学院
【嵌牛导读】:作为一个十余年来快速发展的崭新领域,深度学习受到了越来越多研究者的关注,它在特征提取和建模上都有着相较于浅层模型显然的优势。深度学习善于从原始输入数据中挖掘越来越抽象的特征表示,而这些表示具有良好的泛化能力.它克服了过去人工智能中被认为难以解决的一些问题。且随着训练数据集数量的显著增长以及芯片处理能力的剧增,它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此也促进了人工智能的发展.本文对深度学习常用的激活函数进行总结。
【嵌牛鼻子】深度学习,激活函数
【嵌牛提问】深度学习中的激活函数
【嵌牛正文】
在深度学习中,我们经常会提到激活函数这个概念,常见的激活函数包括Sigmoid函数,tanh函数, ReLU函数等。激活函数是神经网络基本模型中的一个基本结构,激活函数在神经网络中的位置,如下图所示.其中神经元的输出Y为式:
神经网络中每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并且将输出值传给下一层,输入层神经元节点则会将输入属性值直接传递给下一层。在多神经网络中,上一层节点的输出和一层节点的输入之间具有一个函数关系,而这个函数关系就称之为激活函数。
(1)激活函数的作用
如果没有激活函数对上式中Y的输出进行限制,这样以来无论神经网络的结构如何复杂,它的输出将会永远是其输入的线性组合。通过激活函数的设置,每个神经元在输出前都会经过特定的函数激活,从而可以给人工设计的神经网络引入非线性元素,使得该网络结构可以在理论上模拟任意函数,增加神经网络使用上的通用性。下节介绍了几种常见的激活函数。
(2)常见的激活函数
a) Sigmoid 函数是深度学习中最为常见的激活函数之一,它的函数图像如图1-2所示。
Sigmoid函数能够吧输入的连续的实值变换成为0和1之间的输出,特别地,如果是非常大的负数,那么输出就是0;如果是非常大的正数,则经过它的输出则是1。但是sigmoid虽然在一定程度上满足了非线性拟合的目的,但是近些年来,sigmoid的使用率却越来越低。一来是因为它无法解决反向传播求梯度时导致的梯度爆炸和梯度消失现象。其中梯度爆炸发生的概率相对较小,而梯度消失的发生概率却相对较大。下图为sigmoid函数的导数图像。
如果我们初始化神经网络的权值为(1,+∞)之间的随机值,由反向传播算法的数学推导可知,梯度从后向前传播时,每传递一层梯度值都会减小为原来的0.25倍,如果神经网络隐层特别多,那么梯度在穿过多层后将变得非常小接近于0,即出现梯度消失现象;当网络权值初始化为区间内的值,则会出现梯度爆炸情况。另外,
Sigmoid 的 output
不是0均值(即zero-centered)。这是不可取的,因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
产生的一个结果就是:如x>0,那么对求局部梯度则都为正,这样在反向传播的过程中w要么都往正方向更新,要么都往负方向更新,导致有一种捆绑的效果,使得收敛缓慢。
b)Tanh函数
Tanh函数同样也是激活函数中较为常见的一种,它的函数的函数表达式如下;
Tanh函数及其导函数的图像如下:
Tanh函数是在其函数表达式的基础上经过放大或缩小处理后的结果。图2-4为Tanh函数的在定义域为[-10,10]上的函数曲线图。由图可以看出该函数是一个值域在(-1,1)区间内的非线性函数。通过对比可以发现Tanh函数的曲线变化比Sigmoid函数更加陡峭,函数值增减更加剧烈。Tanh函数在一定程度上改善了sidmoid函数,但是梯度消失的问题仍然没有完全避免。
c) ReLU函数
ReLU函数的函数解析式为:
目前ReLU是最常使用的一个激活函数,它实质上就是一个取最大值函数,但是它并不是全区间可导的,不过在一般情况下可以取sub-gradient,如上图所示。ReLU虽然简单,但却是近几年的重要成果,它在正区间内解决了梯度消失的问题,同时因为在使用它的过程中只需要判断输入是否大于零,所以它具有较快的计算速度,收敛速度远快于sigmoid和tanh函数。
d)Leaky ReLU函数
其中Leaky ReLU的函数表达式为:
它的图像和导函数图像如下所示。
为了解决DeadReLU Problem, 提出了将ReLU在(-∞,0)区间内为αx,而非是0,通常α=0.001。Leaky
ReLU继承了ReLU的优点,同时也进一步解决了Dead ReLU的问题,但是实际情况中,LeakyReLU并不一定总比ReLU的效果好。
e)ELU函数
ELU函数的表达式:
ELU的提出是为了解决ReLU存在的Dead ReLU问题,它继承了ReLU的优点同时输出的均值接近于0。