paper阅读 Incorporating Copying Mechanism in Sequence-to-Sequence Learning

今天分享的paper是Incorporating Copying Mechanism in Sequence-to-Sequence Learning,作者来自香港大学和华为诺亚方舟实验室。

模型通过借鉴人类在处理难理解的文字时采用的死记硬背的方法,提出了COPYNET。将拷贝模式融入到了Seq2Seq模型中,将传统的生成模式和拷贝模式混合起来构建了新的模型,非常好地解决了OOV问题。解决问题的思路与之前的一篇有关Pointer的文章十分类似。decoder部分不断地变复杂,考虑的因素越来越多,模型的效果也越来越好。如果结合上一篇Minimum Risk Training的训练方法,相信在评价指标上会更进一步。

综述

Seq2Seq技术占据了nlp多个研究任务的评测榜首,包括最早提出该技术的机器翻译,句法分析,文本摘要,对话系统。Seq2Seq本质上是一个encoder-decoder的模型,encoder部分将输入的序列变换成某一种表示,然后decoder将这种表示变换成输出序列。在Seq2Seq的基础上,首次增加注意力机制来做机器翻译的自动对齐。注意力机制在很大程度上提升了Seq2Seq的性能。

本文研究了人类语言交流的另一个机制,“拷贝机制”(copy mechanism),定位到输入序列中的某个片段,然后将该片段拷贝到输出序列中。比如:

但是注意力机制严重依赖于语义的表示,在系统需要获取到命名实体或者日期时难以准确地表示。相对之下,拷贝机制更加接近于人类处理语言问题的方式。本文提出了COPYNET系统,不仅具备传统Seq2Seq生成词的能力,而且可以从输入序列中拷贝合适的片段到输出序列中。在合成数据和真实数据中均取得了不错的结果。

Seq2Seq

文章的这部分简单介绍了一下Seq2Seq+Attention Mechanism技术,前面的博客分享了很多这部分的内容,这里就不再赘述了。

COPYNET

从神经学角度来讲,拷贝机制和人类的死记硬背类似,较少地理解到了意思但保留了字面的完整。从模型的角度来讲,拷贝机制相比于soft注意力模型更加死板,所以更难整合到神经网络模型中。

模型综述

COPYNET依然是一个encoder-decoder模型,如图1所示:

encoder采用了一个双向RNN模型,输出一个隐藏层表示的矩阵M作为decoder的输入。decoder部分与传统的Seq2Seq不同之处在于以下三部分:

预测:在生成词时存在两种模式,一种是生成模式,一种是拷贝模式,生成模型是一个结合两种模式的概率模型。

状态更新:用t-1时刻的预测出的词来更新t时刻的状态,COPYNET不仅仅词向量,而且使用M矩阵中特定位置的hidden state。

读取M:COPYNET也会选择性地读取M矩阵,来获取混合了内容和位置的信息。

拷贝模式和生成模式

首先,构造了两个词汇表,一个是高频词词汇表,另一个是只在输入序列中出现过一次的词,这部分的词用来支持COPYNET,用UNK表示超纲词(OOV),最终输入序列的词汇表是三者的并集。

给定了decoder当前状态和M矩阵,生成目标单词的概率模型如下:

模型中g表示生成模式,c表示拷贝模式。两种模式的概率由下式给定:

共四种可能情况,下图会更形象一些:

其中生成模式的打分公式是:

拷贝模式的打分公式是:

状态更新

decoder状态更新的公式是

不同的是这里的t-1时刻的y由下式表示:

后面的部分是M矩阵中与t时刻y相关的状态权重之和,如下:

M矩阵

M矩阵中既包含了内容(语义)信息,又包含了位置信息。COPYNET在attentive read时由内容(语义)信息和语言模型来驱动,即生成模式;在拷贝模式时,由位置信息来控制。

位置信息的更新方式如下图所示:

实验

一共分为三个实验:

简单规则构造的合成数据。

文本摘要相关的真实数据。

简单对话系统的数据。

这里只看文本摘要实验。

文本摘要

数据采用LCSTS中文短文本摘要数据集,分为两个level来测试:word-level和char-level,并且以LCSTS的baseline作为对比,结果如下:

本文的模型远远优于baseline,而且word-level的结果比char-level更好,这与当时LCSTS paper中的结论不同,一个可能的原因是,数据集中包含了大量的命名实体名词(entity name),LCSTS paper中的方法并不能很好地处理大量的UNK单词,因此baseline中的char-level效果比word-level更好,而本文的模型的优势在于处理OOV问题,所以word-level结果更好一些。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 近日,谷歌官方在 Github开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型...
    MiracleJQ阅读 6,365评论 1 11
  • 转载 序 文本摘要是自然语言处理中比较难的一个任务,别说是用机器来做文摘了,就连人类做文摘的时候都需要具备很强的语...
    城市中迷途小书童阅读 507评论 0 2
  • 转载 序 文本摘要是自然语言处理中比较难的一个任务,别说是用机器来做文摘了,就连人类做文摘的时候都需要具备很强的语...
    readilen阅读 8,397评论 1 10
  • 本文上两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier阅读 6,422评论 1 22
  • 罗振宇做客《奇葩说》时 说过《笑林广记》中的一个故事。 ‘有一位老秀才嫁女儿,喜宴过后,夜半时分,他迟迟未睡,在院...
    晨钟暮鼓_2221阅读 1,170评论 0 1