人工神经网络(3)-- 有导师学习

有导师学习算法将一组训练集送入网络,根据网络的实际输出与期望输出间的差别来调整连接权。

反向传播(Back Propagation)算法

1、原理

利用有导师学习算法训练神经网络的本质是一个最优化的过程,也就是要找到最优的权重(weights),使得网络的输出和预期的结果最接近(误差最小)。
现在的问题是,如何根据误差来调整权重?首先可以想到的是使用梯度下降(Gradient Descent)的方法。在每轮训练中,我们计算权重在当前值上的梯度,梯度的正负可以告诉我们该如何调整权重。如果梯度为负,我们就增加权重的值;如果梯度为正,我们就减少权重的值。如果网络的输出和预期完全一致,权重的梯度就是0,也就是说不需要调整。
经典的梯度下降法很有效,但是对于含有隐藏层的神经网络来说就有些行不通了。梯度下降法可以应对那些可以求出误差的情况,比如逻辑回归(我们可以把它看做没有隐层的网络);但是对于含有隐层的神经网络,其中隐层的误差是不存在的!因此不能对它直接应用梯度下降!反向传播算法应运而生,它的基本思想是将误差从末层(输出层)往前传递再应用梯度下降法。传递的过程用到了链式法则,因而可以说反向传播算法是梯度下降法在链式法则中的应用。

根据链式法则,隐藏层误差与输出层误差成正比,比例系数由两层之间的权重决定。也就是说,隐藏层节点与输出节点连接越强,对最终输出误差的影响越大。这是很有道理的!


反转神经网络,将误差作为输入,这就是反向传播

前向传递输入信号直至输出产生误差,反向传播误差信息更新权重矩阵。这两句话很好的形容了信息的流动方向,权重得以在信息双向流动中得到优化。

2、流程模拟

以一个两层神经网络为例,计算其权重的更新过程。假设该神经网络包含两个输入值,一个隐藏节点和一个输出节点,隐藏层和输出层的激活函数都是 sigmoid,如下图所示。(注意:图底部的节点为输入值,图顶部的y为输出值。输入层不计入层数,所以该结构被称为两层神经网络。)


假设我们试着训练一些二进制数据,目标值是 = 1。我们从正向传播开始,首先计算输入到隐藏层节点

h = \sum_i w_i x_i = 0.1 \times 0.4 - 0.2 \times 0.3 = -0.02

以及隐藏层节点的输出

a = f(h) = \mathrm{sigmoid}(-0.02) = 0.495

然后将其作为输出节点的输入,该神经网络的输出可表示为

\hat y = f(W \cdot a) = \mathrm{sigmoid}(0.1 \times 0.495) = 0.512

基于该神经网络的输出,就可以使用反向传播来更新各层的权重了。sigmoid 函数的导数f'(W \cdot a) = f(W \cdot a) (1 - f(W \cdot a)),输出节点的误差对于当前带权输入的偏导项(以下简称"误差带权偏导项")可表示为

\delta^o = (y - \hat y) f'(W \cdot a) = (1 - 0.512) \times 0.512 \times(1 - 0.512) = 0.122

现在我们要通过反向传播来计算隐藏节点的偏导项。这里我们把输出节点的偏导项与隐藏层到输出层的权重 W 相乘。隐藏节点的误差带权偏导项可表示为

\delta^h_j = \sum_k W_{jk} \delta^o_k f'(h_j)

由于本例中只有一个隐藏层节点,就成了

\delta^h = W \delta^o f'(h) = 0.1 \times 0.122 \times 0.495 \times (1 - 0.495) = 0.003

有了误差带权偏导项,就可以计算梯度下降步长了。隐藏层-输出层权重更新步长是学习速率乘以输出节点误差带权偏导项再乘以隐藏节点激活值(输出值)。

\Delta W = \eta \delta^o a = 0.5 \times 0.122 \times 0.495 = 0.0302

输入-隐藏层的权重w_i是学习速率乘以隐藏节点误差带权偏导项再乘以输入值。

\Delta w_i = \eta \delta^h x_i = (0.5 \times 0.003 \times 0.1, 0.5 \times 0.003 \times 0.3) = (0.00015, 0.00045)

从这个例子中可以看到 sigmoid 做激活函数的一个缺点。sigmoid 函数导数的最大值是 0.25,因此输出层的误差被减少了至少 75%,隐藏层的误差被减少了至少 93.75%!如果你的神经网络有很多层,使用 sigmoid 激活函数会很快把靠近输入层的权重步长降为很小的值,该问题称作梯度消失。

3、代码实现

权值更新示例:

# coding = utf-8
import numpy as np

#========================================================
#  数据准备
#========================================================
# 训练集
X = np.array([0.5, 0.1, -0.2])
target = 0.6

# 学习率
learnrate = 0.5

# 初始化权值
weights_input_hidden = np.array([[0.5, -0.6],
                                 [0.1, -0.2],
                                 [0.1, 0.7]])

weights_hidden_output = np.array([0.1, -0.3])

#========================================================
#  激活函数
#========================================================

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

#========================================================
#  前向传播
#========================================================

hidden_layer_input = np.dot(X, weights_input_hidden)
hidden_layer_output = sigmoid(hidden_layer_input)

output_layer_in = np.dot(hidden_layer_output, weights_hidden_output)
output = sigmoid(output_layer_in)

#========================================================
#  反向传递
#========================================================

# 输出层误差
error = target - output
# 输出层误差带权偏导项
output_error_term = error * output * (1 - output)

# 隐藏误差带权偏导项
hidden_error_term = np.dot(output_error_term, weights_hidden_output) * \
                    hidden_layer_output * (1 - hidden_layer_output)

# 计算隐层到输出层的权值改变
delta_w_h_o = learnrate * output_error_term * hidden_layer_output

# 计算输入层到隐层的权值改变
delta_w_i_h = learnrate * hidden_error_term * X[:, None]

print('Change in weights for hidden layer to output layer:')
print(delta_w_h_o)
print('Change in weights for input layer to hidden layer:')
print(delta_w_i_h)

迭代训练:

# coding = utf-8
import numpy as np

#========================================================
#  数据准备
#========================================================
# 训练集
features = None
targets = None

# 测试集
features_test = None
targets_test = None

n_records, n_features = features.shape

#========================================================
#  参数配置
#========================================================

# 隐层点数
n_hidden = 2
# 迭代次数
epochs = 900
# 学习率
learnrate = 0.005

#========================================================
#  初始化权值
#========================================================

weights_input_hidden = np.random.normal(scale=1 / n_features ** .5,
                                        size=(n_features, n_hidden))
weights_hidden_output = np.random.normal(scale=1 / n_features ** .5,
                                         size=n_hidden)

#========================================================
#  激活函数
#========================================================

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

#========================================================
#  训练过程
#========================================================
last_loss = None

for e in range(epochs):

    w_input_hidden = np.zeros(weights_input_hidden.shape)
    w_hidden_output = np.zeros(weights_hidden_output.shape)

    for x, y in zip(features, targets):
        ##=============== 前向传递 ===============##
        hidden_input = np.dot(x, weights_input_hidden)
        hidden_output = sigmoid(hidden_input)

        output_input = np.dot(hidden_output,
                              weights_hidden_output)
        output = sigmoid(output_input)

        ##=============== 反向传播 ===============##
        # 输出误差
        error = y - output
        # 计算输出节点的误差带权偏导项
        output_error_term = error * output * (1 - output)

        # 计算隐层在误差上的贡献
        hidden_error = np.dot(output_error_term, weights_hidden_output)
        # 计算隐层节点的误差带权偏导项
        hidden_error_term = hidden_error * hidden_output * (1 - hidden_output)

        # 更新权值
        w_hidden_output += output_error_term * hidden_output
        w_input_hidden += hidden_error_term * x[:, None]

    # 权值更新
    weights_input_hidden += learnrate * w_input_hidden / n_records
    weights_hidden_output += learnrate * w_hidden_output / n_records

    # 打印训练集的均方误差
    if e % (epochs / 10) == 0:
        hidden_output = sigmoid(np.dot(features, weights_input_hidden))
        out = sigmoid(np.dot(hidden_output, weights_hidden_output))
        loss = np.mean((out - targets) ** 2)

        if last_loss and last_loss < loss:
            print("Train loss: ", loss, "  WARNING - Loss Increasing")
        else:
            print("Train loss: ", loss)
        last_loss = loss

#========================================================
#  测试
#========================================================

# 在测试数据上计算准确率
hidden = sigmoid(np.dot(features_test, weights_input_hidden))
out = sigmoid(np.dot(hidden, weights_hidden_output))
predictions = out > 0.5
accuracy = np.mean(predictions == targets_test)
print("Prediction accuracy: {:.3f}".format(accuracy))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355