Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.
此文章为清华大学朱军组最新的研究成果,提出了ADT(Adversarial Distributional Training)用于学习鲁棒的模型。AT(Adversarial Training)与ADT的不同点在于,AT寻找最坏情况的对抗样本,而ADT学习最坏情况的对抗分布。由于该分布潜在地包含各种攻击方法生成的对抗样本,最小化其损失将增强模型的泛化性能,同时提升干净样本和对抗样本的分类精度。
-
Adversarial Training
给定n个训练样本的数据集,其中,输入,标签,则对抗训练可以被定义为如下的最小最大(minimax)的优化问题:
-
Adversarial Distributional Training
为了缓解对抗训练的不足(性能远非满意,抵抗众多攻击的通用性较差),作者提出捕获每个输入周围的对抗扰动的分布,而不是仅寻找局部最对抗的点以进行更通用的对抗训练,并将此方法命名为Adversarial Distributional Training(ADT)。令正常样本周围的对抗分布为,则ADT可以描述为如下的minimax优化问题:
其中,(指的是支撑集)。 -
Regularizing Adversarial Distributions
如下式所示,ADT的内层优化容易退化到狄拉克分布
为了解决退化问题,引入正则化项:
with
其中,