图像识别的经典数据集合
MNSIT:
CIFAR:10个不同种类的6000张图片,图片的每张像素是32*32。
ImageNet:基于wordnet的大型图像数据库。将imagenet中的近15000w的图片与wordnet中的20000个名词同义集。
在imagenet的数据集中一个实体的标识矩阵称为bounding box.
top-n正确率:图像识别算法给出的前n个答案中有一个正确的概率。
MNIST与CIFAR数据集的的区别:
CIFAR的数据集是彩色的,分辨的难度比较大,MNIST的数据集合是黑白色,分辨的难度比较小。
CNN
CNN出现的原因
图像处理问题的全连接参数太多
以mnist图像集为例子,一张图片的像素是28*28*1(28个像素*28个像素*图像是白是黑),
第一个hidden layer的nuture为500个,第一个全连接的参数为28×28×500+500
以CIFAR图像集为例子:一张图片的参数为32×32×3.同样考虑是第一层hidden layer的
nutire为500个,则第一个全连接的参数为32×32×3×500+500~150w个参数。
CNN的结构
1:输入层:(x,y,channel)
x,y:图片的像素
channel:图像的色彩通道,黑白为1,RGB色彩模式下图像通道为3。
2:卷积层
filter:将前一层的子矩阵转换为下层的单位矩阵,
filter的尺寸:前一个的子矩阵的尺寸,这是需要人工指定的,常用的为3*3,5*5.
filter的深度:下层单位矩阵的深度。
单位矩阵:1*1*深度(深度可变,长宽都为1)
矩阵移动:左上到右上,左下角矩阵,继续向右。
矩阵大小控制:用0填充,设置过滤器的移动步长。
3:池化层
作用类似于前向传播的加权,有2种方式
max pooling:最大值操作的池化层
average pooling:平均值操作的池化层
类似与卷积层,池化层也有自定义filter尺寸,用0填充,设置过滤器的移动步长。
不同与卷积层,池化层的filter还需要在filter深度上移动,卷积层则不不需要。
4:全连接层
卷积层,池化层的作用主要是做图像特征的提取。
全连接层的主要作用是完成分类任务。
5:softmax层:主要用于图像分类问题
得到不同label的probability`
经典cnn网络架构
一般的架构为
输入层->(一个或者多个卷及层+没有或者一个池化层)+全连接层+other
ps:论文发现可以通过调节卷及层的步长取代池化层实现减少参数过拟合。
lenet-5
inception-v3
迁移学习
将一个问题上训练好的模型通过简单调整使用与一个新模型
参考链接
http://www.image-net.org/
//www.greatytc.com/p/fe428f0b32c1
http://blog.topspeedsnail.com/