简介
GAN的基本原理其实非常简单,这里以生成图片为例进行说明。假设我们有两个网络,G(Generator)和D(Discriminator)。正如名字那样,生成网络负责生成,辨别网络负责分辨生成的质量,然后不断的生成与辨别,最后达到效果。GAN第一篇要看的paper当然是Ian Goodfellow大牛的Generative Adversarial Networks(arxiv:https://arxiv.org/abs/1406.2661),这篇paper算是这个领域的开山之作。当然GAN是谁最新发明的我们不做争论。
生成与对抗
GAN在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。
最后博弈的结果是什么?以图片为例,在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z)) = 0.5。但是实际训练的时候这个状态一般是不可达的。上面的过程使用数学公式来表达:
分析这个公式:
- 整个式子由两项构成。x表示真实输入,z表示输入G网络的噪声,而G(z)表示G网络生成
- D(x)表示D网络判断真实图片是否真实的概率(因为x就是真实的,所以对于D来说,这个值越接近1越好)。而D(G(z))是D网络判断G生成的图片的是否真实的概率
- G的目的:上面提到过,D(G(z))是D网络判断G生成的图片是否真实的概率,G应该希望自己生成的图片“越接近真实越好”。也就是说,G希望D(G(z))尽可能得大,这时V(D, G)会变小。因此我们看到式子的最前面的记号是min_G(G在min的下面)
- D的目的:D的能力越强,D(x)应该越大,D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大max_D(D在max的下面)
上面的过程使用图来描述:
如何训练GAN
首先看论文给出的方法:
尤其注意红方框的标注,我们分为两步:
- 首先训练D,D是希望V(G, D)越大越好,所以是加上梯度(ascending)
- 然后训练G时,V(G, D)越小越好,所以是减去梯度(descending),整个训练过程交替进行
损失函数
这点有些许不同,以往的深度神经网络都是一个损失函数。但是GAN是类似于encoder-decoder
模型,生成网络一个损失函数,对抗网络一个损失函数。这两个损失函数可以是一样的,也可以分别定义成不同的函数。但是这两个函数在训练的时候会有一些问题:
可以提高训练速度。在实际中还可以开始的学习率较高,训练进行中,逐步减少学习率。
CNN与GAN的结合
在图像领域我们知道CNN是最好的深度模型,所以早早的就有人做了尝试,如:DCGAN是这方面最好的尝试之一(论文地址:[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)
DCGAN的基本原理和GAN是一样的,它只是把上述的G和D换成了两个卷积神经网络(CNN)。但不是直接换就可以了,DCGAN对卷积神经网络的结构做了一些改变,以提高样本的质量和收敛的速度,这些改变有:
- 取消所有pooling层。G网络中使用转置卷积(transposed convolutional layer)进行上采样,D网络中用加入stride的卷积代替pooling
- 在D和G中均使用batch normalization
- 去掉FC层,使网络变为全卷积网络
- G网络中使用ReLU作为激活函数,最后一层使用tanh
- D网络中使用LeakyReLU作为激活函数
至于为什么是这些改变,可以自己动手做一下实验,看看效果,或许自己做的实验改变的地方比论文还要好。而且现在的GAN网络在随机噪声输入方面,使用先验的图片,当然这也是跟GAN的任务有关。如果任务是一种风格的图片到另外一种图片的生成,那么预先的输入就不是随机噪声,而是预先的风格图片。
优秀的GAN网络
目前在图像领域有几个我关注比较优秀的GAN项目如下:
CycleGAN
CycleGAN可谓是大名鼎鼎,风靡一时。项目:https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
CycleGAN是非结对的训练,训练集分为两个集合,A和B训练过程可以是A->B,也可以是B->A。不论哪一种,结果都是可以互转的。例如A集合可以是线条的猫图画,B集合是实物猫的图片,那么训练完成之后,就可以将手绘的猫图片转成真实的猫图片。StyleGAN
项目:https://github.com/NVlabs/stylegan
StyleGAN是一种图像生成器,取决于你的输入。然后可以在生成的lacent space
上修改向量方向,最后达到编辑图片的效果。可以编辑图片的嘴部笑、年龄、性别等等。pix2pixHD
项目:https://github.com/NVIDIA/pix2pixHD
pix2pixHD是pix2pix改进超级加强版,有些效果与CycleGAN相似。但是pix2pixHD是结对训练的,必须要一一对应的数据。pix2pixHD的代码结构与CycleGAN的代码都是相似的。其实在CycleGAN中就有pix2pix模型的训练代码,可以说他们是出自一波人之手。CycleGAN的作者Jun-Yan Zhu也是pix2pix
和pix2pixHD
的核心参与者。
GAN论文与代码实现
- GAN论文汇总,包含code:zhangqianhui/AdversarialNetsPapers