【论文地址】End-to-End Deep Learning for Driver Distraction Recognition(http://www.springer.com/cda/content/document/cda_downloaddocument/9783319598758-c2.pdf?SGWID=0-0-45-1608335-p180889205)
摘要
该模型框架,通过预训练卷积神经网络VGG-19,提取图片特征。在照明条件、摄像头位置、驾驶员种族以及性别存在差异的情况下, VGG-19模型的测试精度达到了95%,平均每类测试精度为80%。所提出的方法在精度上优于xgboost约7%。
模型框架
驾驶员分心识别问题可以看作是一个将输入观测映射到驾驶员状态的多分类过程。所开发的系统主要包括三个组件,如图1所示。第一部分是CNN的一个变体,用于提取高度抽象特征。然后是一个Max池化层,用于减少特征的尺寸。最后一个组件包括6个全连接层和一个Softmax层。
特征提取
常见的卷积网络是由一系列卷积层,池化层堆叠而成,通常后面紧接着全连接层。卷积层和池化层在较小的局部输入块上运行,这两层的结合使得网络对给定图像中的位置变化更加稳健。
作为卷积网络的一个变体,VGG-19网络首先在ImageNet竞赛中的图像分类、目标检测和目标定位任务中被提出来。由于它具有结构简单,参数数量适中的特点,很快被许多计算机视觉和图像处理研究所接受。采用这种网络有两种常见的方法:对VGG中的所有参数进行微调;提取经过预训练的VGG模型的高度抽象特征。本文的研究工作遵循第二种方法,从VGG19模型中提取代表性特征。
文中对VGG19的结构和配置做了简要的总结。输入应为224224的RGB图片。卷积核大小为33,使得下面的层包含较小的局部信息,卷积的步长为1。并在2*2的块上执行max pooling,步长为2。VGG19中最后三个全连接层被丢弃,其余的结构用于特征提取。
分类
如图2,原始的VGG19中的分类器是一个三层全连接网络,它是为包含不同目标的图像分类而设计和训练的。VGG中最后一个max pooling后的特征图尺寸为77512。如图1,为了减小特征的维数并加快学习过程,在VGG19模型中的最后一个池化层和DNN分类器之间连接另一个max pooling,也在2*2像素窗上执行,步长为2。同时,在这项工作中,我们使用了xgboost和一个6层全连接网络作为分类器用来分心驾驶的分类。Xgboost后的全连接网络分类器包含6层,每层有1000个神经节点,并采用SGD进行训练。Xgboost的学习过程比较耗时,不适合直接在大图像的像素级上工作。DNN与xgboost分类器两者的性能比较如表1。
从表1中可以看出,DNN分类器在正常驾驶、右分心和后分心三个类别上占主导地位;而在左分心类别中,两者差异较小。另外,对于两个分类器,左分心的分类都有很好的区分,两个分类器的F1度量几乎为1。表中还显示了右分心和正常驾驶分类上的精度高于召回率,而在后分心分类上表现相反。这一差异表明,模型把更多样本分类为后分心类别中。