因为最近刚好要对深度学习做个报告,这里做个小结。基本知识网上一搜都能找到,我只按着自己的理解从下面三个部分来说明神经网络的一些通性。
发展溯源
深度学习发展到今天,经过一波三折,追溯它的起源其实是对它的原理,背景以及未来的发展做些了解,从而更好地去理解神经网络演变到深度学习,这些算法之间的通性。
先来看一张图:
图中可见三个深度学习发展的低谷,同时也是兴起的转折点,先来看1943年的MCP人工神经元模型。
这个构架就已经涵盖了现今很多神经网络的特点,权重与输入的乘积之和,通过激活函数输出等等,1958年Rosenblatt用它发明了单层感知器,但1969年感知器被Minsky证明本质是线性模型,发展就此搁浅。
到1986年Hinton发明了BP神经网络,采用Sigmoid函数进行非线性映射,有效解决非线性分类的问题,但是在1991年BP算法被指出有梯度消失的问题,陷入冰点。
2006年Hinton提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化+有监督训练微调。至此,深度学习就不断地引起人们的重视,蓬勃发展至今。参考
每一层的输入输出
先来看几个网络。
BP神经网络
可以看到,输入是上一层输出的值分别与权重相乘的和,而输出是输入通过激活函数变化后的值,BP中常用的激活函数是Sigmoid函数。
深度信念网络(DBNs)
这个网络是由多层的受限玻尔兹曼机(RBM)组成,多层的无监督学习和顶层的有监督学习。是为了解决BP神经网络中出现的梯度消失的问题而出现的,从之前的发展历程中也可以看到。
同样的,它的输入输入输出和BP神经网络是一样的,不过激活函数的选择可以是不一样的,不同的是它的训练机制,我们下面再讲。
卷积神经网络(CNN)
卷积神经网络适合于用作图像识别分类上,输入是一个(pp3)的矩阵,p的大小由图像的像素大小决定,矩阵上的每一个值都是0-255之间的值,熟悉rgb三色通道的同志们应该了解这个,这也解释了矩阵厚度为什么为3。
至于输出,输入矩阵通过滤波器来对图像的特征进行提取,不同的滤波器得到的特征不同,得到的输出也就不同,看下图。
图中两个不同的滤波器,得到了两个不同的矩阵(绿色),其实这种从高维图像中提取低维信息的过程也就是卷积的目的。参考1参考2
如何训练
关于训练过程,有一个损失函数的概念,BP要使损失函数尽量小,那么需对损失函数求导,求极值,这里采用梯度下降的方式调整权重。但是会有局部极小值和梯度消失的问题。
而深度信念网络,在受限玻尔兹曼机无标签训练的过程中,是希望每一层前向传播的概率值和后向传播的概率值尽量相等。可能难以理解,看张图:
在重构阶段,第一隐藏层的激活值成为反向传递中的输入。这些输入值与同样的权重相乘,每两个相连的节点之间各有一个权重,就像正向传递中输入x的加权运算一样。这些乘积的和再与每个可见层的偏差相加,所得结果就是重构值,亦即原始输入的近似值。由于RBM权重初始值是随机决定的,重构值与原始输入之间的差别通常很大。可以将r值与输入值之差视为重构误差,此误差值随后经由反向传播来修正RBM的权重,如此不断反复,直至误差达到最小。
经过无监督训练之后,再通过有监督的训练队全局的权重进行调优。参考
卷积神经网络的训练也是一个是损失函数最小的过程,但是具体的话我还不理解。以后有机会再来写。
最后
深度学习深究起来真是要掉不少头发,网络安全领域,我还是希望只把它当成数据分析的工具用,比方说深度学习态势感知,恶意代码检测。
还是先学会用吧,转化成有价值的东西,总比空想强。