Adversarial Distributional Training

Adversarial Distributional Training for Robust Deep Learning
Zhijie Deng, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu
arXiv preprint arXiv:2002.05999.

此文章为清华大学朱军组最新的研究成果，提出了ADT（Adversarial Distributional Training）用于学习鲁棒的模型。AT（Adversarial Training）与ADT的不同点在于，AT寻找最坏情况的对抗样本，而ADT学习最坏情况的对抗分布。由于该分布潜在地包含各种攻击方法生成的对抗样本，最小化其损失将增强模型的泛化性能，同时提升干净样本和对抗样本的分类精度。

Adversarial Training
给定n个训练样本的数据集 $\mathcal{D}=\{(x_i, y_i)\}^n_{i=1}$ ，其中，输入 $x_i \in \mathbb{R}^{d}$ ，标签 $y_i \in \{1,...,C\}$ ，则对抗训练可以被定义为如下的最小最大（minimax）的优化问题：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)$
Adversarial Distributional Training
为了缓解对抗训练的不足（性能远非满意，抵抗众多攻击的通用性较差），作者提出捕获每个输入周围的对抗扰动的分布，而不是仅寻找局部最对抗的点以进行更通用的对抗训练，并将此方法命名为Adversarial Distributional Training（ADT）。令正常样本 $x_i$ 周围的对抗分布为 $p(\delta_i)$ ，则ADT可以描述为如下的minimax优化问题：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]$
其中， $\mathcal{P}=\{p: \operatorname{supp}(p) \subseteq \mathcal{S}\}$ （ $\operatorname{supp}$ 指的是支撑集）。
Regularizing Adversarial Distributions
如下式所示，ADT的内层优化容易退化到狄拉克分布
$\max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]$
$\quad \leq \max _{\boldsymbol{\delta}_{i} \in \mathcal{S}} \mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)$
为了解决退化问题，引入正则化项：
$\min _{\boldsymbol{\theta}} \frac{1}{n} \sum_{i=1}^{n} \max _{p\left(\boldsymbol{\delta}_{i}\right) \in \mathcal{P}} \mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right),$ with
$\mathcal{J}\left(p\left(\boldsymbol{\delta}_{i}\right), \boldsymbol{\theta}\right)=\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\mathcal{L}\left(f_{\boldsymbol{\theta}}\left(\mathbf{x}_{i}+\boldsymbol{\delta}_{i}\right), y_{i}\right)\right]+\lambda \mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)$
其中， $\mathcal{H}\left(p\left(\boldsymbol{\delta}_{i}\right)\right)=-\mathbb{E}_{p\left(\boldsymbol{\delta}_{i}\right)}\left[\log p\left(\boldsymbol{\delta}_{i}\right)\right]$