基于tensorflow的最简单的强化学习入门-part1:多臂老虎机问题

题图

本文翻译自 Simple Reinforcement Learning in Tensorflow: Part 1 - Two-armed Bandit, 作者是 Arthur Juliani, 原文链接

介绍

强化学习不仅提供了指导人工智能agent如何行动的能力,还允许它通过和环境的相互作用自主学习。同时结合神经网络强大的表达能力和目标驱动学习方式,深度强化学习成为了强大的人工智能基本方法。深度强化学习已经完成了一些惊人的壮举,例如在Atari游戏中战胜了人类,在在围棋项目上击败了世界冠军,最近又在德州扑克中大放异彩。

构建这些人工智能程序和构建可监督学习程序有所不同。可监督学习只是简单的学习模型对某个输入的反馈,而强化学习算法使agent能够通过观察(observation)、奖励(reward)和动作(action)来学习对于输入的正确的反馈。在特定情况下,强化学习和有监督学习是不同的,agent并不知道何谓正确的行动,这使事情变得很棘手。在这篇文章和后续的文章中,我将介绍如何构造和训练强化学习agent。为了使大家概念清晰,处理的任务和agent的设计都会从简单到复杂。

双臂老虎机问题(Two-Armed bandit)

最简单的强化学习问题就是多臂老虎机问题了。多臂老虎机问题本质上可以看做一个拥有n个槽的老虎机,转动每个槽都有固定回报概率。我们的目标就是找到回报概率最高的的槽并且不断的选择它来获取最高的回报。为了简化这个问题,假设这个机器只有两个槽,我们要做的就是从这两个槽中找到回报更高的那一个。事实上,这个问题非常简单,但是可以看作真正RL问题的一个原型。一般的RL问题需要符合如下条件

  • 不同的动作导致不同的回报。举个例子,在迷宫中寻找宝藏,如果往左就能获得宝藏,往右就什么都得不到。
  • 回报在时间上有延迟。沿用上述的例子,在迷宫中往左时,我们并不是立即知道我们走的就是正确的方向。
  • 某个动作下的回报跟当时的环境有关。继续刚才的例子,往左边是当前情况下的最佳选择,在其他情况下就不一定了。

多臂老虎机是学习强化学习良好的开端,我们不需要去担心#2和#3的问题。我们只需要关注哪个动作可以带来怎样的回报,并且确保我们能够选择理想的动作。用RL的术语来说,这就叫做Policy。我们将要用一种叫做策略梯度(policy gradients)的方法,该方法中我们的简单的神经网络通过和环境的的不断交互同时结合BP算法就可以学习到如何执行该动作的策略(policy)。在强化学习中,还有另一种方法叫做价值函数(value functions),在这个方法中,agent并不是学习某种状态下特定的动作,而是学习如何预测当前的状态和动作的好坏(价值)。两种方法都可以使得agent可以学习良好的策略,不过策略梯度方法更直接一些。

策略梯度算法

简单来说,策略梯度网络可以直接产生输出。在我们这个简单的例子中,我们不需要根据当前的状态来调节输出。因此,我们的网络只包括一组的权重,每个对应着老虎拉动机臂可能的动作,输出代表对应的动作的好坏。如果我们将这些权重初始化为1,那么agent可能会对每个分支的潜在回报过于乐观。

为了更新网络参数,我们将采用一种称为e-greedy的策略(后续章节会详细介绍这个方法)。应用这个策略意味着在大多数情况下,我们的agent会选择带来最大预期好处的动作,但是偶尔的以e的概率,它将随机选择。这样agent就可以尝试每一个可能的状态,一旦我们的agent采取行动,它就会收到1或者-1的奖励。有了这个奖励,我们可以使用损失函数更新我们的网络参数:

译者注:在Andrej Karpathy文中也有对这个方法的介绍。

Loss = log(\Pi) * A
  • A称为优势(advantage), 是所有强化学习方法中一个重要的概念。直观的看,它对应于某个动作跟某些baseline相比的好坏。在未来的算法中,我们会开发更复杂的baseline和我们的回报对比,当在当前的问题中,我们假设baseline为0,而A可以简单的认为是每个行动的回报。
  • \pi 称为策略,在这个例子中它代表选择这个动作的权重。

显而易见,这样的损失函数允许我们增加产生积极奖励动作时的权重,并且减少产生负奖励时的权重。通过这样方式,agent或多或少的能够在未来学习如何采取动作,获得奖励,并且更新我们的网络。我们会很快收敛到(学习到)一个agent,该agent可以解决我们的多臂老虎机问题。如果不相信我说的,那你可以自己试试看。

基于tensorflow强化学习代码:

Bandits

在这个例子中我们采用一个四个臂的老虎机。pullBandit函数随机从正态分布函数采样一个值,如果该值越小,那么就会更有可能产生一个正的回报。我想要我们的agent能够学习到产生回报最高的那个老虎机臂。bandits是一个数组,bandit 4(index#3)被设置为产生最高回报。

import tensorflow as tf
import numpy as np

bandits = [0.2,0,-0.2,-5]
num_bandits = len(bandits)
def pullBandit(bandit):
    #Get a random number.
    result = np.random.randn(1)
    if result > bandit:
        #return a positive reward.
        return 1
    else:
        #return a negative reward.
        return -1

Agent

下述代码实现了一个简单的基于神经网络的agent。该agent主要包括每一个bandit对应的权重,每一个权重就是选择该bandit预期的回报。通过不断的选择老虎臂并且获得回报,我们将采用策略梯度方法来更新权重,


tf.reset_default_graph()

#These two lines established the feed-forward part of the network. This does the actual choosing.
weights = tf.Variable(tf.ones([num_bandits]))
chosen_action = tf.argmax(weights,0)

#The next six lines establish the training proceedure. We feed the reward and chosen action into the network
#to compute the loss, and use it to update the network.
reward_holder = tf.placeholder(shape=[1],dtype=tf.float32)
action_holder = tf.placeholder(shape=[1],dtype=tf.int32)
responsible_weight = tf.slice(weights,action_holder,[1])
loss = -(tf.log(responsible_weight)*reward_holder)
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.001)
update = optimizer.minimize(loss)

Training the Agent

通过不断的选择动作并且获得回报,利用reward和action,我们能够合适的更新神经网络中的权重。最终该网络会倾向于选择带来回报更多的bandit。


total_episodes = 1000 #Set total number of episodes to train agent on.
total_reward = np.zeros(num_bandits) #Set scoreboard for bandits to 0.

e = 0.1 #Set the chance of taking a random action.

init = tf.initialize_all_variables()

# Launch the tensorflow graph
with tf.Session() as sess:
    sess.run(init)
    i = 0
    while i < total_episodes:
        
        #Choose either a random action or one from our network.
        if np.random.rand(1) < e:
            action = np.random.randint(num_bandits)
        else:
            action = sess.run(chosen_action)
        
        reward = pullBandit(bandits[action]) #Get our reward from picking one of the bandits.
        
        #Update the network.
        _,resp,ww = sess.run([update,responsible_weight,weights], feed_dict={reward_holder:[reward],action_holder:[action]})
        
        #Update our running tally of scores.
        total_reward[action] += reward
        if i % 50 == 0:
            print "Running reward for the " + str(num_bandits) + " bandits: " + str(total_reward)
        i+=1
print "The agent thinks bandit " + str(np.argmax(ww)+1) + " is the most promising...."
if np.argmax(ww) == np.argmax(-np.array(bandits)):
    print "...and it was right!"
else:
    print "...and it was wrong!"

如果你觉得这篇文章对你有帮助,可以关注原作者。

如果你想要继续看到我的文章,也可以专注专栏。第一次翻译,希望能和大家一起交流。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 197,966评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,170评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,909评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,959评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,851评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,583评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,956评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,590评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,878评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,892评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,719评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,501评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,957评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,124评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,440评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,003评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,211评论 2 339

推荐阅读更多精彩内容