一般来说我们通常都是需要在一些特定的领域里来识别分类,比如服装类、标志等等,但是深度学习中数据集的准备一直是最令人头疼的一件事。我们很难拿到大量的数据。在这种情况下重新训练的一个新的网络是比较复杂,且参数也不好调整,因此数据集为图像时,通过fine-tuning微调是一个比较理想的选择。Fine-tuning的整体思路就是,ImageNet是一个千万级的图像数据库,现已经在ImageNet上训练了一个很牛的网络,我们可以把pretrain的网络拿过来,然后只重新训练最后几层。意思就是以前需要分成1000类,现在只需要识别是狗还是猫,或者衣服是上衣还是裤子。故就只需要把最后一层softmax从40961000的分类器变成40922的分类器。微调网络需要一个已初始化的模型参数文件,这里不同于用某某网络训练自己的数据集方法。后者在训练过程中,这些参数都被随机的初始化。而fine-tuning是在已训练好的参数的基础上,根据我们的分类识别任务进行特定的微调。总而言之,fine-tuning这种策略目前在应用中是非常好使的。接下来介绍一下fine-tuning流程以及简单介绍一下该如何调参。
fine-tuning流程
对网络进行微调的整个流程可以分为以下几步:
- 准备数据集(包括训练数据和测试数据)
- 计算数据集的均值文件,因为某个特定领域的图像均值文件会跟ImageNet上的数据均值不太一样
- 修改网络最后一层的输出类别数,以及最后一层网络的名称,加大最后一层的参数学习速率
- 调整solver的配置参数
- 加载预训练模型的参数,启动训练
1. 准备数据集(建立与下载)
前面几篇笔记已经有所介绍了,就是下载数据然后转成LMDB格式。
2. 计算数据集的均值文件
3. 调整网络参数
参照caffe上的例程,可以使用CaffeNet,复制caffenet的train_val.prototxt到自己的目录下,或者复制官网给出的例子——Fine-tuning CaffeNet for Style Recognition on “Flickr Style” Data,下载完之后,模型会放在models的finetune_flickr_style中,可以参考里面的那些文件,适当修改一些地方即可。个人建议:不管训练什么模型,最好自己新建一个目录,然后把所有需要的文件拷贝到该目录下,然后根据自己的需求更改。本文是在examples/下新建了一个blog_img目录。该文件需要修改的地方如下:train_val.prototxt(1)修改source和meanfile
name: "BlogNet" #这里的名字可修改可不修改,根据自己的意愿
layer {
name: "data"
type: "ImageData"
top: "data"
top: "label"
include {
phase: TRAIN
}
transform_param {
mirror: true
crop_size: 227
mean_file: "data/blog_img/train_mean.binaryproto" #这里是第二步求得的均值文件所在的地方
}
image_data_param {
source: "data/blog_img/train_lmdb" #训练集所在的地方
batch_size: 512 #可根据自己内存情况调整,最好是8的倍数
new_height: 256 #在finetuning的时候,新问题的图像大小不同于pretraining的图像大小时,只能缩放到同样的大小
new_width: 256
}
}
layer {
name: "data"
type: "ImageData"
top: "data"
top: "label"
include {
phase: TEST
}
transform_param {
mirror: false
crop_size: 227
mean_file: "data/blog_img/test_mean.binaryproto "
}
image_data_param {
source: "data/blog_img/test_lmdb" #测试集所在的地方
batch_size: 128
new_height: 256
new_width: 256
}
}
(2)修改输出层fc8
layer {
name: "fc8_bogimg" #修改名字,这样预训练模型赋值时会因为名字不匹配从而重新训练,也就达到了适应新任务的目的
type: "InnerProduct"
bottom: "fc7"
top: "fc8_blogimg"
# lr_mult is set to higher than for other layers, because this layer is starting from random while the others are already trained
param {
lr_mult: 10 #调整学习率,因为最后一层是重新学习的,因此需要比其他层更快的学习速率,因此将weight和bias都增加10倍,其他层为1或2,如果
decay_mult: 1 #数据集过小,可以将其他层的学习率置为0,只训练最后一层
}
param {
lr_mult: 20 #上同
decay_mult: 0
}
inner_product_param {
num_output: 5 #修改为你想识别的类别数
weight_filler {
type: "gaussian"
std: 0.01
}
bias_filler {
type: "constant"
value: 0
}
}
}
layer {
name: "accuracy"
type: "Accuracy"
bottom: "fc8_blogimg" #别忘了还有这里的名字(fc8层的名字)
bottom: "label"
top: "accuracy"
include {
phase: TEST
}
}
layer {
name: "loss"
type: "SoftmaxWithLoss"
bottom: "fc8_blogimg" #别忘了还有这里的名字(fc8层的名字)
bottom: "label"
top: "loss"
}
solver.prototxt
微调,顾名思义微微调整,所以一般来说,相比较于用某网络结构直接训练自己的数据集来说,学习速率、步长、迭代次数都减小。修改地方如下:
net: "examples/blog_img/train_val.prototxt"
test_iter: 100
test_interval: 1000
# lr for fine-tuning should be lower than when starting from scratch
base_lr: 0.001
lr_policy: "step"
gamma: 0.1
# stepsize should also be lower, as we're closer to being done
stepsize: 5000
display: 100
max_iter: 10000
momentum: 0.9
weight_decay: 0.0005
snapshot: 5000
snapshot_prefix: "examples/blog_img/img_type"
# uncomment the following to default to CPU mode solving
solver_mode: GPU
- 开始训练
./build/tools/caffe train -solver examples/blog_img/solver.prototxt -weights models/bvlc_reference_caffenet /bvlc_reference_caffenet .caffemodel -gpu 0
预测效果