神经网络架构搜索——可微分搜索（Fair-DARTS）

小米实验室 AutoML 团队的NAS工作，论文题目：Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search。针对现有DARTS框架在搜索阶段训练过程中存在 skip-connection 富集现象，导致最终模型出现大幅度的性能损失问题的问题，提出了Sigmoid替代Softmax的方法，使搜索阶段候选操作由竞争关系转化为合作关系。并提出 0-1 loss 提高了架构参数的二值性。

论文链接：https://arxiv.org/abs/1911.12126.pdf

源码链接：https://github.com/xiaomi-automl/FairDARTS

动机

skip-connection 富集现象

本文指出 skip connections 富集的原因主要有两个方面：

skip connections 的不公平优势

在超网络训练架构参数过程中，两个节点之间是八个操作同时作用的， skip connections 作为操作的其中一员，相较于其他的操作来讲是起到了跳跃连接的作用。在ResNet 中已经明确指出了跳跃连接在深层网络的训练过程中中起到了良好的梯度疏通效果，进而有效减缓了梯度消失现象。因此，在超网络的搜索训练过程中，skip connections可以借助其他操作的关系达到疏通效果，使得，skip connections 相较于其他操作存在不公平优势。

softmax 的排外竞争

由于 softmax 是典型的归一化操作，是一种潜在的排外竞争方式，致使一个架构参数增大必然抑制其他参数。

部署训练的离散化差异（discretization discrepancy）

搜索过程结束后，在部署训练选取网络架构时，直接将 softmax 后最大 α 值对应的操作保留而抛弃其它的操作，从而使得选出的网络结构和原始包含所有结构的超网二者的表现能力存在差距。离散化差异问题主要在于两点，一方面Softmax归一化八种操作参数后，DARTS 最后选择时的 α 值基本都在 0.1 到 0.3 之间，另一方面判定好坏的范围比较窄，因为不同操作 α 值的 top1 和 top2 可能差距特别小，例如 0.26 和 0.24，很难说 0.26 就一定比 0.24 好，如下图所示：

image

方法

sigmoid 函数替换 softmax


class Network(nn.Module):

    def __init__(self, C, num_classes, layers, criterion, steps=4, multiplier=4, stem_multiplier=3,parse_method='darts', op_threshold=None):
        pass

    def forward(self, input):
        s0 = s1 = self.stem(input)
        for i, cell in enumerate(self.cells):
            if cell.reduction:
                weights = F.sigmoid(self.alphas_reduce) # sigmoid 替换softmax
            else:
                weights = F.sigmoid(self.alphas_normal) # sigmoid 替换softmax
            s0, s1 = s1, cell(s0, s1, weights)
        out = self.global_pooling(s1)
        logits = self.classifier(out.view(out.size(0),-1))
        return logits

0-1 损失函数

l2 0-1 损失函数

$L_{0-1}=-\frac{1}{N} \sum_{i}^{N}\left(\sigma\left(\alpha_{i}\right)-0.5\right)^{2}$

l1 0-1 损失函数

$L_{0-1}^{\prime}=-\frac{1}{N} \sum_{i}^{N}\left|\left(\sigma\left(\alpha_{i}\right)-0.5\right)\right|$

$L_{\text {total}}=\mathcal{L}_{v a l}\left(w^{*}(\alpha), \alpha\right)+w_{0-1} L_{0-1}$


# l2
class ConvSeparateLoss(nn.modules.loss._Loss):
    """Separate the weight value between each operations using L2"""
    def __init__(self, weight=0.1, size_average=None, ignore_index=-100,reduce=None, reduction='mean'):
        super(ConvSeparateLoss, self).__init__(size_average, reduce, reduction)
        self.ignore_index = ignore_index
        self.weight = weight

    def forward(self, input1, target1, input2):
        loss1 = F.cross_entropy(input1, target1)
        loss2 = -F.mse_loss(input2, torch.tensor(0.5, requires_grad=False).cuda())
        return loss1 + self.weight*loss2, loss1.item(), loss2.item()

# l1
class TriSeparateLoss(nn.modules.loss._Loss):
    """Separate the weight value between each operations using L1"""
    def __init__(self, weight=0.1, size_average=None, ignore_index=-100,
                 reduce=None, reduction='mean'):
        super(TriSeparateLoss, self).__init__(size_average, reduce, reduction)
        self.ignore_index = ignore_index
        self.weight = weight

    def forward(self, input1, target1, input2):
        loss1 = F.cross_entropy(input1, target1)
        loss2 = -F.l1_loss(input2, torch.tensor(0.5, requires_grad=False).cuda())
        return loss1 + self.weight*loss2, loss1.item(), loss2.item()

使用上述损失函数就可以使得不同操作之间的差距增大，二者的 α 值要么逼近 0 要么逼近 1 如下图曲线所示

导数可视化图

实验

CIFAR-10

精度比较

FairDARTS 搜索 7 次均可得到鲁棒性的结果:

CIFAR-10结果

skip connections 数量比较

DARTS 和 Fair DARTS 搜索出来的 cell 中所包含的 skip connections 数量比较:

skip connections 数量比较

ImageNet

精度比较

注意模型 A、B 是迁移比较，C、D 是直接搜索比较。

ImageNet结果

sigmoid 函数的共存性

热力图可看出使用 sigmoid 函数可让其他操作和 skip connections 共存：

image

消融实验

去掉 Skip Connections

由于不公平的优势主要来自 Skip Connections，因此，搜索空间去掉 Skip Connections，那么即使在排他性竞争中，其他操作也应该期待公平竞争。去掉 Skip Connections搜索得到的最佳模型（96.88±0.18％）略高于DARTS（96.76±0.32％），但低于FairDARTS（97.41±0.14％）。降低的精度表明足够的 Skip Connections 确实对精度有益，因此也不能简单去掉。

image

0-1 损失函数分析

0-1 损失函数消融实验

如果去掉 0-1 损失函数会使得 α 值不再集中于两端，不利于离散化;
损失灵敏度，即通过超参来控制 $w_{0-1}$ 损失函数的灵敏度

讨论

对于 skip connections 使用 dropout 可以减少了不公平性；
对所有操作使用 dropout 同样是有帮助的；
早停机制同样关键（相当于是在不公平出现以前及时止损）；
限制 skip connections 的数量需要极大的人为先验，因为只要限定 skip connections 的数量为 2，随机搜索也能获得不错的结果；
高斯噪声或许也能打破不公平优势（孕育出了后面的NoisyDARTS~）。

参考

[1] Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search
[2] DARTS+: Improved Differentiable Architecture Search with Early Stopping
[3] Noisy Differentiable Architecture Search
[4] Fair DARTS：公平的可微分神经网络搜索
[5] Fair darts代码解析

最后编辑于：2020.09.09 09:28:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 227,401评论 6赞 531
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 98,011评论 3赞 413
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 175,263评论 0赞 373
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,543评论 1赞 307
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 71,323评论 6赞 404
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,874评论 1赞 321
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,968评论 3赞 439
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,095评论 0赞 286
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,605评论 1赞 331
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,551评论 3赞 354
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,720评论 1赞 369
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,242评论 5赞 355
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,961评论 3赞 345
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,358评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,612评论 1赞 280
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 51,330评论 3赞 390
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,690评论 2赞 370

神经网络架构搜索——可微分搜索（Fair-DARTS）

动机

skip-connection 富集现象

skip connections 的不公平优势

softmax 的排外竞争

部署训练的离散化差异（discretization discrepancy）

方法

sigmoid 函数替换 softmax

0-1 损失函数

l2 0-1 损失函数

l1 0-1 损失函数

实验

CIFAR-10

精度比较

skip connections 数量比较

ImageNet

精度比较

sigmoid 函数的共存性

消融实验

去掉 Skip Connections

0-1 损失函数分析

讨论

参考

推荐阅读更多精彩内容