《Deep Reinforcement Learning with a Natural Language Action Space》之简评

转载请注明作者：可怜的橡皮擦

论文链接：Deep Reinforcement Learning with a Natural Language Action Space

标题：Deep Reinforcement Learning with a Natural Language Action Space

来源：ACL 2016

问题：实验任务----文字游戏，实验目标----提出一种效果更好的DQN网络结构

（1）本文属于探索深度增强学习在nlp领域的应用，实验任务采用了nlp中较方便建立马尔可夫过程的文字游戏任务。文字游戏任务本质还是游戏，只是将当前游戏的环境和现状用文字描述出来，然后玩家根据阅读后的理解输入相应文字来作为操作方案。例如游戏显示“当前有两条岔路，请问选择左还是右？”，那么玩家则相应输入“左”或者“右”来作为操作。

（2）作者认为传统的DQN网络在解决上述问题时实验结果尚存不足，因而提出一种分开学习state和action向量表示的网络结构，并进行相应实验

主要方法：

（1）本文采用的方法本质是深度增强学习，下面简单介绍一下

深度增强学习即增强学习在深度学习上基础的实现，本质是用深度神经网络来拟合增强学习中的Q函数，带来的优势是更强的拟合效果以及引入端到端的解决能力。增强学习的建模过程是基于马尔可夫过程建模，因而训练目标有别于传统机器学习任务，传统任务的训练目标是减小期望输出和目标输出的绝对误差，拟合过程是在单个时间点，而增强学习是寻求一个长期增益最大，且长期奖励结果只存在相对最优，拟合过程也是建立在一段时间上。

增强学习有三个重要参数，状态state，动作action，奖励reward。整个任务的行进是基于马尔可夫过程的时间序列，即某个state下，采取某个action，获得相应的reward。

增强学习时间序列

优化目标是使采取当前动作后，未来的累积奖励最大，并引入λ作为折扣因子进行时间衰减。将长期奖励引入状态价值函数后经过等价变换后可以得到一个服从迭代过程的bellman方程

累积奖励

状态价值函数等价变换为bellman方程形式

等式中状态价值函数v(s)可等价替换为动作价值函数Q(s,a)，当Q(s,a)表示的是最优策略的价值时即为如下等式

最优策略动作价值函数

优化目标即让当前策略的动作价值函数无限逼近最优策略的价值函数，所以loss函数如下

Q网络loss函数

至此，整个深度增强学习网络的优化目标就出来了，在这里讲解的比较简略，后文的理解大家只需要套用深度学习的训练，然后误差函数如上设置即可，其中的w即为网络权重。如果还有什么疑问欢迎自己查阅资料无果后咨询。

（2）本文具体工作

1、运用mlp分别构建两个network,并各自将文本描述的状态和动作encode为一个向量然后用一种逐元素操作方法得到Q值，比如对两个向量作内积。内积就是相似度的一种表征，也就是本文模型中的relevant。

2、然后运行值更新策略，更新策略网络Q，这里的Q网络即上一步由两个mlp网络merge出来的模型结构。

样本k的差值，本文并未提到奖励r如何得来，也许由游戏本身反馈

3、探索与利用机制，本文并未采用传统的e-greedy，而是采用softmax selection

softmax selection公式

上式的α称为温度，当它趋于0时倾向“仅利用”策略，当它趋于无穷时倾向“仅探索”，在训练过程中该参数会逐渐由大变小。

4、算法流程图如下

本文模型训练流程图

首先初始化replay池，用于存储产生的样本，即（s[k],a[k],s[k+1],A[k+1],r[k]）,当存储样本个数达到一定阈值随机取出batch_size个样本用作训练。该机制的目的是打破样本之间的时序关联，避免样本分布受时间序列影响。

训练的流程如下：

（a）将当前游戏文字描述送入状态网络生成状态向量V(s),将候选action依次送入动作网络生成动作向量V(a)，V(s)点积V(a)结果即为Q值，如此便得到候选action的Q值分布

（b）再对应action的Q值分布采取softmax selection策略选择出一个action反馈给游戏，得到当前奖励r[k], 以及下一状态s[k+1]，关于s[k+1]重复（a）操作得到action的Q值分布，选取Q值最高的action作为A[k+1]，将（s[k],a[k],s[k+1],A[k+1],r[k]）送入replay池。

（c）重复(a)(b)操作，直到replay池样本个数达到一定阈值，取出batch_size个样本用作训练，对应更新状态网络和动作网络，同时softmax selection的温度根据迭代次数逐渐变小

相关工作：

（1）举出另外两种baseline模型与本文模型比较

两种DQN网络结构和本文结构

1、Max-action DQN

该模型适用于每一个transition中actions的最大数量是已知的情况，将每个transition中state和actions拼接成一个向量作为输入，通过一个Deep Network得到每个action的Q值。论文Generating Text with Deep Reinforcement Learning采用的就是这种网络结构

2、Per-action DQN

该模型将每一对(state,action)拼接成一个向量作为输入，通过network得到每个action的Q值。

（2）在Saving John和Machine of Death两个文字游戏上的实验结果

saving john

Machine of Death

简评：

（1）本文的核心是将深度增强学习应用到广义上的nlp领域，但它的亮点则在于提出的DRRN模型。（我觉得text-game严格意义上来说不能算nlp任务）

首先需要指出率先将DQN应用到广义nlp领域的文章是Language Understanding for Text-based Games using Deep Reinforcement Learning，采用的模型是简化版的Max-action DQN，即没有输入候选action。率先将DQN应用到严格意义上nlp领域的文章是Generating Text with Deep Reinforcement Learning。两者的模型都是MA DQN，action也都是词，action-size也就是词表的大小，那么必然面临一个nlp任务中常面临的大词表问题。词表越大，难收敛问题也就越严重。

而本文的DRRN模型相比其他模型的优势就在于单独用两个网络分别映射state和action.不仅解决了大词表问题，而且降低了网络规模，并增加了网络信息容量。又因为state往往是一个比较长的文本，可能是几句话，而action一般来说是一个动词短语，如果将state和action拼接送入单个网络结构后会降低action的影响，所以将state和action通过不同的网络结构进行学习，得到相同维度的表示再结合计算Q值可能效果更好。这也在实验结果中得到了体现。

然而DRRN模型虽然名字很新，但它其实依旧是一个传统的retrieval模型，只不过在DQN领域摇身一变穿了新衣，这种retrieval模型在QA领域极其常见，即将问题和答案分别用RNN encode出一个向量然后计算相似度，然后根据相似度打分rank出最优结果。

（2）增强学习和nlp

在迭代过程中有两个重要参数是r和Q，前者是奖励，后者是动作价值函数，它的值反映的是长期的奖励累积。本文并没有指出r的由来，应该是由游戏直接反馈结果，然而实际任务可能不存在这个反馈，所以就需要我们自己去生成对应的r值。例如，著名的alphaGo里有两个主要的网络结构，值网络和策略网络，前者就是对应的r。在nlp中，例如seq2seq任务，r值就可以是BLEU，QA中，r值就可以是NDCG。增强学习的优化目标是Q，既追求的是一个长期过程，建模过程也用了马尔可夫决策建模，并不像传统的机器学习任务那样，每个样本是一个独立的完整事件。所以当我们在将增强学习运用到nlp领域时，我们需要思考什么样的nlp任务是这种满足长期累积的平稳过程，或者怎么将nlp任务转化为这种长期任务来处理。

参考文献：

Narasimhan K, Kulkarni T, Barzilay R. Language Understanding for Text-based Games UsingDeep Reinforcement Learning[J].EMNLP, 2015, 40(4):1-5.

Guo H. Generating Text with Deep Reinforcement Learning[J].NIPS, 2015.

Bahdanau D, Brakel P, Xu K, et al. An Actor-Critic Algorithm for Sequence Prediction[J]. arXivpreprint arXiv:1607.07086, 2016.

最后编辑于：2017.12.04 03:36:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,113评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,644评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,340评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,449评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,445评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,166评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,442评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,105评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,601评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,066评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,161评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,792评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,351评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,352评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,584评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,618评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,916评论 2赞 344

《Deep Reinforcement Learning with a Natural Language Action Space》之简评

推荐阅读更多精彩内容