Rapid learning or feature reuse? towards understanding the effectiveness of maml.
Citation: 154 (2021-09-01)
1. Motivation
作者关心的是一个基础的开放问题: MAML的效果是由于meta-initialization带来的rapid learning,还是由于特征的reuse?
是不是meta-initialization已经带来了高质量的特征?
结论是:feature reuse占据了主导作用。
2. Rapid learning or feature reuse?
作者就是要验证MAML的效果是左图的Rapid learning还是右图的feature reuse。
Rapid learning: 用MAML学习一个meta-initialization,然后在不同的新任务上,用小样本finetune。
Feature reuse: 以meta-initialization为主,只做一点点finetune。
MAML包括两个优化:
(1)Outer loop: Meta-initialization
(2)Inner loop: Adaption
作者设计了两个实验:
(1)不用inner loop;
(2) 使用相似度工具量化经过inner loop网络与表示变化程度。
Freezing layer representations
在两个数据集上的freeze inner loop layers实验表明,inner loop不进行网络更新,对结果的影响不是特别大,说明meta-initialization已经学习得比较好了。
Representational similarity experiments
作者比较了inner loop的每一层在adaption前后的差异,发现除了最后一层(head),其它的层(卷积层)差异不大,说明adaption带来的变化不大(这个也合理,毕竟是小样本学习,变化能大到哪里去?)。
Feature reuse happens early in learning
是不是因为inner loop迭代的次数太少,学习的不够,所以feature reuse发挥作用更大? 作者通过迭代更多次的实验表明,相关结论不变,不是inner loop学习充分性的问题。
3. ANIL (Almost No Inner Loop)
根据上面的实验结论,作者提出ANIL,inner loop的最后一层参与adaption,其它层与meta-initialization保持不变。
从结果上看,ANIL效果与MAML类似。
4. NIL (No Inner loop)
作者完全去掉inner loop,发现在图像数据上效果也差不多。
5. 思考
优点:
(1)作者在图片场景初步证明了MAML中发挥绝对主要作用的是feature reuse,基于小样本的adaption没有那么重要。
思考:
(1)你不做消融实验,别人就会帮你做(甚至可能还打你脸)?
(2)作者是在图片场景做的实验,结论在其它如推荐场景效果不确定;如果推荐场景也是这个结论,那本质上就是基于特征的迁移学习了。
References
[1] (ICLR20) Raghu, Aniruddh, et al. "Rapid learning or feature reuse? towards understanding the effectiveness of maml." arXiv preprint arXiv:1909.09157 (2019).