Gradient Episodic Memory for Continual Learning

机器学习在有一件事上一直做得不好,那就是学习新任务的时候会忘记之前完成过的任务。

在监督学习任务中,监督学习的目标是构建模型fx,用于预测与看不见的特征向量关联的目标向量x,为此,监督学习方法通常采用ERM原则。但是ERM的直接应用会导致“灾难性的遗忘”,也就是说,机器的学习在接触新任务后会忘记如何解决过去的任务。作者们提出了一种新的学习度量,用于评估模型如何在一系列学习任务中迁移知识。最终,作者们提出了一个新的顶级表现的算法——梯度片段记忆(GEM),它使得学习机器在学习新任务的时候也可以不忘记以往学到的技能,同时能够使有益的知识转移到先前的任务。

机器在学习当前任务时,可以访问之前所有任务的部分数据,它们被收集在一个称为“episodic memory”的地方。作者提出了“Gradient Episodic Memory”的方法来利用“episodic memory”解决机器遗忘的问题。

以往机器有关序列学习的任务都有若干特点:

1任务数量少,但每个任务所要学习的例子很多

2学习机器对每个任务的例子进行了几次复习

3报告的平均绩效是唯一的指标

 但本文的作者采用一种“更像人类”(“more human-like”)的学习任务来测试GEM模型,该种任务的特点:

1任务数量大,但每个任务的训练示例数量少,

2学习只观察每个任务的示例一次

3增加报告测量迁移的绩效和遗忘的指标,作者认为除了观察其跨任务的绩效外,评估转移知识的能力也很重要

在学习任务的框架中,作者定义了3个任务指标——ACC/BWT/FWT


这些指标越大代表了模型建立越完美,如果两个模型的ACC相同,BWT和FWT的值越大的模型越好(文章并没有比较BWT和FWT,是不是说明ACC是下位的指标)。对于学习的精细度(fine-grained evaluation)评估,可以通过更构建一个行数多于任务数的矩阵R中的元素Ri,j(为观察连续体中第i个样本后对任务tj的测试精度)来进行评估。

EGM算法

作者在任务k的工作记忆上定义如下损失函数:


其中Mk 表示任务k的memory。但这种方式容易在Mk中的样本上过拟合。作者尝试一种方法,通过构建一个不等式约束,让其只减不增。作者新定义了一个学习函数模型:


其中f_{\theta }^t-1是学习前一个任务后的模型。作者进一步观察到,其实并不需要保存之前的模型,只需要在模型参数更新后,之前任务的损失不增加就可以了。这可以通过计算梯度的夹角来确定:


如果夹角为锐角,则学习当前任务时,任务k的性能就不会增加。如果夹角不是锐角,通过投影的方法,将梯度g投影到最近的梯度\hat{g} 上,并且建立优化函数求解


文章还通过实验来评估GEM在连续学习中的表现。

实验采用3个数据集(datasets)——MNIST Permutations;MNIST Rotations;CIFAR 100。对于所有数据集,实验给出了T = 20个任务。在MNIST数据集上,每个任务都有来自10个不同类别的1000个示例。在CIFAR100数据集上,每个任务都有来自5个不同类别的2500个示例。该模型按顺序观察任务,每个示例观察一次。在每个数据集的测试分区上执行每个任务的评估,记录ACC,BWT,FWT的值。

不仅如此,作者还将GEM和其他算法(single,independent, iCaRL和EWC)一起比较,观察和记录各项指标来观察GEM的绩效。

实验结果:


图左为所有数据集和方法的指标数据分析图,图右显示的是不同方法在整个连续性数据中第一个任务的测试准确性的演变。可以观察到,总的来说,GEM的性能与多模态模型(the multimodal model)相似,甚至更好,并且这些模型非常适用于MNIST任务;不仅如此,GEM在CIFAR100中表现出最小的遗忘和正向后移(backward transfer)。GEM的性能明显优于其他的持续学习方法,并且计算量更少。综合后续的CPU训练时间、工作记忆容量的实验测量后,可以观察到GEM优质的性能。




实验虽然展示出了GEM的高性能,作者表明但仍然有3点不足:

1首先,GEM没有利用结构化的任务描述符,而描述符可以被用来获得零镜头学习(zero-shot learning)。

2其次,实验没有研究高级记忆管理(例如构建任务的核心集)。

3第三,每个GEM迭代要求每个任务向后通过一次,这增加了计算时间。当然,如何解决计算时间也是作者自身准备研究的方面。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容

  • Convolutional LSTM Network: A Machine Learning Approach f...
    缸里有绿粥阅读 21,119评论 1 8
  • 指的是某个区块跟创始区块之前相隔的区块的个数。 区块高度是区块的标识符,就是区块的编号,区块高度为100的区块就是...
    yshi2017阅读 364评论 0 0
  • 3月28日 正确意识到自己学习能力差是在上个月常青洛老师开班的《好好学习》训练营里,我第一次认真的听老师讲的每个重...
    欢儿2018阅读 159评论 0 0
  • 收到老妈顺丰加急寄过来的知了,满满的一大袋子,很嫩,用油炸的金灿灿的,吃起来酥香。不知道这些知了,老妈捉了...
    奔跑的蜗牛呀阅读 201评论 0 1
  • 第二十七章 反间 嫣然掩唇一笑,宛如昙花夜放,刹那清绝。她的姿色在怀风眼里不过平平,这一笑却是罕见的风雅婉媚,怀风...
    梨涡小篆本尊阅读 651评论 0 1