神经网络入门

1.神经网络前传——感知机

感知机作为神经网络的起源,由Frank Rosenblatt(美国)在1957 年提出。感知机的构造与神经网络中的神经元类似,理解感知机的思想对后续了解神经网络有很重要的帮助。
感知机的逻辑形状类似于生物的神经系统,由神经元与神经元之间连接构成。感知机的节点包含激活函数,用来处理节点收到的信息(激活函数详见附录),类似于神经系统的神经元;节点与节点之间由边连接,边包含权重等信息,类似于神经系统中神经细胞的突触。具体类比如下图:

生物神经元.png

感知机.png

每个节点接收到连接他的相邻节点传来的信息作为输入,在上图中神经元B接受来自于A1、A2的输入x1、x2,在输入信号分别乘以对应边上的权重后求和,如果总和超过某个阈值,则该神经元被激活。这里将这个阈值用\theta表示。感知机的数学公式如下:
f(x)= \begin{cases} 0& \text{w$_{1}$x$_{1}$+w$_{2}$x$_{2}\leqslant \theta$}\\ 1& \text{w$_{1}$x$_{1}$+w$_{2}$x$_{2}$ > $\theta$} \end{cases}
NOTE:
感知机的输入都有各自的权重,权重越大,意味着这个输入对该神经元的状态影响越大。而后面的神经网络的学习,就是在不断调优寻求最佳权重的过程。

2.用感知机思想实现逻辑电路

我们来回顾一下离散数学。这里用感知机的思想去实现与门、或门、与非门、异或门是为了更切实的体验感知机的思想,并形象地展现权重和偏置在神经网络中作用的作用,最后我们会引入激活函数的概念,并在下一章“神经网络”中进行详细介绍。

2.1与门

与门真值表
x1 x2 y
0 0 0
0 1 0
1 0 0
1 1 1

如果我们用代码实现逻辑电路与门、或门、与非门、异或门异常简单。但此处我们引入权重与偏置等概念,使用感知机的思想实现与门、或门、与非门、异或门。
我们给x1、x2分别乘以各自边上的权重再求和,最后加上偏置量等于输出y。

与门代码实现:
import numpy as np

def AND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.7
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

2.2或门

或门真值表
x1 x2 y
0 0 0
0 1 1
1 0 1
1 1 1
或门代码实现:
import numpy as np

def OR(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.2
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

2.3与非门

与非门真值表
x1 x2 y
0 0 1
0 1 1
1 0 1
1 1 0
与非门代码实现:
import numpy as np

def NAND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([-0.5, -0.5])
    b = 0.7
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

2.3异或门

异或门真值表
x1 x2 y
0 0 0
0 1 1
1 0 1
1 1 0

异或门是比较特殊的逻辑门,因为观察异或门的真值表可以发现,他的true值分布是非线性的。在前面三个逻辑门中,如果以x1为横轴,以x2为纵轴,true值和false值可以用一条直线来区分开来,以或门为例:
f(x)= \begin{cases} 0& (\text{x$_{1}$+x$_{2}$-0.5$\leqslant$0})\\ 1& (\text{x$_{1}$+x$_{2}$-0.5>0}) \end{cases}
分割true值与false值的线性函数为:
x_{2}= -x_1+0.5
然而异或门的真值不是以上述这种方式分布,所以用单层感知机无法实现异或门。我们在离散数学中都学到过异或门可以通过与门、或门以及非与门组合实现,因此我们使用多层感知机来实现异或门。

与门代码实现:
def XOR(x1, x2):
    s1 = NAND(x1, x2)
    s2 = OR(x1, x2)
    y = AND(s1, s2)
    return y

此处多层感知机就是神经网络的雏形,每个神经元的输入都有各自不同的权重,每个神经元都有自己的激活函数以及偏置量。最终的输出神经元就是所要的结果。

2.神经网络

我们已经了解了感知机的基本概念与结构,感知机既有优点又有缺点。优点是感知机理解起来简单容易,在遇到复杂问题上,感知机理论上是可以使用并解决问题的。但感知机最最致命的缺点就是所有的权重需要人工确认,例如我们实现逻辑门时,权重是由人为确定。在处理简单问题时,人工参与确认权重可行,一旦问题复杂,所用的感知机神经元数量庞大,结构复杂时,人工确认权重就变得困难。因此我们进一步探索神经网络,神经网络提供了一套机器自己确定权重的方法(但并非所有参数都可以自己自动决定,神经网络中一些超参数依旧需要人工确定。超参数将会在后续分享中提及
这一节将大致介绍神经网络。这里我们默认神经网络的权重已经获取到合适的值。我们仅仅使用神经网络进行分类。神经网络每个神经元的权重学习将在下一节分享中详述。

2.1神经网络图解

此处我们构建一个三层神经网络,用来说明神经网络的基本结构。三层神经网络结构如下图:


神经网络结构图.png
神经网络说明:

层说明:上图展示的神经网络为一个三层的神经网络(实际上有4层,但是第一层是从0开始算起,因此称为三层神经网络)图中由x1,x2组成的神经网络层是第0层,称作输入层,由y1,y2组成的神经网络层是第3层,称作输出层。夹在中间两层的是隐藏层。
参数说明:边上的w为权重,b为每层的偏置量。w是由参数组成的二维数组。b是由常数组成的数组,也就是说每一个神经元接收到的偏置量可以不一样。
函数说明:h(x)为激活函数,激活函数详见 附录 零食一:激活函数

2.2神经网络的运算

总体计算流程:输入层的神经元的输入值乘以每条边上的权重,然后传递给下一个神经元,在下一个神经元上将各个输入以及偏置量b求和,总和为a。z = h(a),h()为激活函数。z作为本神经元的输出传递给下一个神经元。

  • 输入:输入层是一系列输入神经元,我们可以将输入作为一个一维数组来看待。后续批处理的时候输入是分批输入,输入可以抽象为二元数组。
  • 权重:权重可以抽象为二维数组,权重二维数组的第一维的形状必须和输入层(上一层的输出)的第二维的形状相同。
  • 中间结果:中间结果是由上一层的输入乘以权重加上偏置计算得出的。可以抽象为一个一维数组(在批量处理中是二维数组)具体计算参见 附录 零食二:矩阵乘法
  • 输出结果:输出结果由一系列输出层的神经元组成。根据不同目标会有不同个数的神经元。例如我们在手写数字分类的神经网络中,输出元有10个,分别代表0~9的概率。

2.3三层神经网络的代码实现

此处我们将权重的学习跳过,将权重信息写死在程序当中。权重的学习将放置在后续的分享当中。

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def identity_function(x):
    return x


def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])
    return network



def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)

    return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)

2.4输出层的设计

在上面的代码实现中我们发现我们最后使用的identity_function是简单的只返回输入x,相当于什么也没做,这种函数叫做恒等函数。这一小节我们讨论下输出层的设计。
神经网络可以用在分类问题回归问题上,需要根据不同情况来使用不同的激活函数,一般而言,回归问题用恒等函数,分类问题用softmax函数。

2.4.1softmax函数

softmax函数的数学表示如下:
y_{k}=\frac{exp(a_k)}{\sum_{i=1}^Nexp(a_i)}
说明:假设输出层有N个神经元,在第k个神经元输出yk,因为分类问题需要的是每个分类的概率,softmax是一个大于0小于1的分数,softmax输出值的总和为1,所以使用softmax作为输出层的激活函数来处理分类问题。

2.4.2softmax函数的实现

import numpy as np
def softmax(x):
    exp_x = np.exp(x)
    sum_exp_x = np.sum(exp_x)
    y = exp_x / sum_exp_x

    return y

a = np.array([0.3, 2.9, 4.0])
print(softmax(a))

2.4.3softmax中的陷阱

我们来回忆一下y = e^{-x}的图像,当x趋于0时,y值趋于负无穷。这种情况下计算机会溢出。如果我们分类函数用如上的softmax作为输出层的激活函数,遇到一个概率判断很小的分类,就爆炸了。。。那如何避免这个数学上的陷阱呢?解决方案非常粗暴简单,给分子、分母加个不为0的常数。改进后的softmax的数学表示如下:
y_{k}=\frac{exp(a_k)}{\sum_{i=1}^Nexp(a_i)}=\frac{Cexp(a_k)}{C\sum_{i=1}^Nexp(a_i)}
=\frac{exp(a_k+logC)}{\sum_{i=1}^Nexp(a_i+logC)}
=\frac{exp(a_k+C')}{\sum_{i=1}^Nexp(a_i+C')}
说明:分子、分母同时乘以一个不为零的常数,运算结果不会改变。经过如上变换,只需要给输出加上一个不为零的常数即可。为了防止计算机溢出。我们减去输出层的神经元最大的输出项作为C'

2.4.4改进后的softmax代码实现

import numpy as np
def softmax(x):
    c = np.max(x)
    exp_x = np.exp(x - c)
    sum_exp_x = np.sum(exp_x)
    y = exp_x / sum_exp_x

    return y

a = np.array([0.3, 2.9, 4.0])
print(softmax(a))

附录:

附录附上一些在感知机中可能需要了解的数学知识。如果你的大学数学记忆犹新可以不看这部分附录。如果你和我一样大学数学全部还给老师的话,可以在此复习一下。别怕!所需要的高数知识非常简单

零食一:激活函数

将输入信号(多于一个)进行一番运算转换为输出信号,这种函数统称为激活函数。我们来看几个常用激活函数的例子:

1.阶跃函数

f(x)= \begin{cases} 0& (\text{w$_{1}$x$_{1}$+w$_{2}$x$_{2}$+b$\leqslant$0})\\ 1& (\text{w$_{1}$x$_{1}$+w$_{2}$x$_{2}$+b>0}) \end{cases}
NOTE:
w:边上的权重
b:偏置量

说明:

此神经元接受两个输入信号,x1,x2,两个输入信号分别乘以两条边上的权重w1,w1求和再加上偏置量b作为最终阶跃函数判断的依据。如果和小于0则阶跃函数输出0,如果和大于0则阶跃函数输出1。由于最终输出为0或1,在平面直角坐标系中的图像像台阶一样,因此称之为阶跃函数。

阶跃函数的代码实现:
import numpy as np
import matplotlib.pylab as plt


def step_function(x):
    return np.array(x > 0, dtype=np.int)

X = np.arange(-5.0, 5.0, 0.1)
Y = step_function(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1) 
plt.show()
阶跃函数图像:
阶跃函数图形.png

2.SIGMOD函数

SIGMOD函数是神经网络中较为常用的一个激活函数,SIGMOD函数的数学表示如下:
a=w_{1}x_{1}+w_{2}x_{2}+b
h(a)=\frac{1}{1+exp(-a)}
NOTE:
w:边上的权重
b:偏置量

相对于阶跃函数,SIGMOD函数曲线更加平滑,而且范围也是在(0,1)之间,SIGMOD函数在神经网络之中有很特殊的意义。在某些场景下SIGMOD函数的输出更符合需求,例如我们需要求各个输出神经元对应的概率。在这种情况下,我们需要的是一个0到1之间的实数,而非0/1的二元输出。

SIGMOD函数的代码实现:
import numpy as np
import matplotlib.pylab as plt


def sigmoid(x):
    return 1 / (1 + np.exp(-x))    

X = np.arange(-5.0, 5.0, 0.1)
Y = sigmoid(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1)
plt.show()
SIGMOD函数的图像:
SIGMOD函数图像.png

3.ReLU函数

在激活函数的发展史中SIGMOD函数很早就开始使用了。但是近期则主要使用ReLU函数。(Rectified Linear Unit)
ReLU函数的数学表示如下:
f(x)= \begin{cases} x& (\text{x>0})\\ 0& (\text{x$\leqslant$0}) \end{cases}

ReLU函数的代码实现:
import numpy as np
import matplotlib.pylab as plt


def relu(x):
    return np.maximum(0, x)

x = np.arange(-5.0, 5.0, 0.1)
y = relu(x)
plt.plot(x, y)
plt.ylim(-1.0, 5.5)
plt.show()

ReLU函数的图像:
ReLU函数图像.png

零食二:矩阵乘法

理论说的再好不如例子一个,我们举个来说明矩阵乘法怎么算。

我们定义二维矩阵A, B
A = {[2,4],[2,6],[5,6]}
矩阵A的形状为3×2
B = {[1,2,3],[4,5,6]}
矩阵A的形状为2×3
说明:矩阵的形状被乘数为第一维元素的个数,乘数为第二维元素的个数。如果两个二维矩阵相乘,必须保证第一个矩阵的第二维形状与第二个矩阵第一维的形状相等。在上述例子中为2 = 2,如果不相等则矩阵不可乘。
矩阵A乘以B记做A·B,我们用矩阵S表示(S = A·B)。S的形状为第一个矩阵的第一维的形状×第二个矩阵的第二维的形状,即shape(S) = 3×3,具体运算规则如下:

S[0][0] = A[0][0]×B[0][0] + A[0][1]×B[1][0] = 2×1 + 4×4 = 17
S[0][1] = A[0][0]×B[0][1] + A[0][1]×B[1][1] = 2×2 + 4×5 = 24
S[0][2] = A[0][0]×B[0][2] + A[0][1]×B[1][2] = 2×3 + 4×6 = 30
S[1][0] = A[1][0]×B[0][0] + A[1][1]×B[1][0] = 2×1 + 6×4 = 26
……
S[2][2] = A[2][0]×B[0][2] + A[2][1]×B[1][2] = 5×3 + 6×6 = 51

最终结果为:

S = {[17,24,30],[26,34,42],[29,40,51]}

Reference:

[1]斋藤康毅., 2016, Deep Learning from Scratch, Tokyo: O'Reilly Japan, Inc.
[2]耿素云.,1998, 离散数学.第2分册,集合论与图论, 北京: 北京大学出版社.
[3]李响初., 2012, 数字电路基础与应用, 北京: 机械工业出版社.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352