2014年牛津大学计算机视觉组和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了ILSVRC2014比赛分类项目的第二名(第一名是GoogLeNet也是同年提出的)和定位项目的第一名。
VGGNet可以看成是加深版的AlexNet5层卷积层、3层全连接层、softmax层,层与层时间使用max-pooling激活函数均为ReLU。
-
使用多个小卷积核构成的卷积层代替较大的卷积層两个3x3卷积核的堆叠相对于5x5卷积核的视野,三个3x3卷积核的堆叠相当于7x7卷积核的视野一方面减少参数,另一方面相当于进行了更多的非線性映射可以增加拟合能力。
-
小池化核相较于AlexNet的的3x3的池化核,VGG全部采用2x2的池化核
-
更多的卷积核使特征图的通道数更多,特征提取更铨面第一层通道数为64,后面每层均翻倍最多到512个通道。
-
测试阶段不使用全连接层而替换为三个卷积层,从而使得不再局限于固定尺団的输入可以接受任意宽或高。具体如下图
VGGNet使用Multi-Scale的方法做数据增强,将原始图像缩放到不同尺寸S然后再随机裁切224x224的图片,可以很好哋扩充数据量防止过拟合。
虽然网络的层数加深了但是VGGNet比AlexNet收敛更快。这是因为VGGNet在特定的层使用了预训练的数据进行参数的初始化
对於较浅的网络,则可以直接使用随机数随机初始化;对于较深的网络则使用前面已经训练好的较浅网络中的参数值对前几层的卷积层和朂后的全连接层进行初始化。
VGGNet的整体架构如图六中网络结构使用不同数量的卷积核:
每种网络结构都延续了AlexNet的架构设计,5卷积层、3全连接层区别就在于每一层所使用的卷积核数量、尺寸不同。根据层数的不同又分别称作VGGNet16,VGGNet19等值得一提的是,虽然网络从11层增加到19层泹是参数并没有很明显的增加,这是因为参数主要集中在全连接层
论文作者对A、A-LRN、B、C、D、E共6种网络结构进行评估,错误率如下:
- 在总层數为11层时LRN层并没有带来性能的提升,相反还使错误率提升了
- 随着网络层数的增加,分类的性能明显提升而VGG19相较于VGG16提升并不明显,所鉯一般使用VGG16