图像算法--骨架网络(一)

今天来讲一种更深的CNN网络，VGG神经网络。

更深的网络：VGG神经网络

VGG在卷积核方向最大的改进是将卷积核全部更换成了 $3 \times 3,1 \times 1$ 的卷积核，而性能最好的VGG-16和VGG-19是由仅仅 $3 \times 3$ 的卷积核构成，这样做的原因主要有以下几个方面

根据感受野的计算方式 $rfsize=(out-1) \times stride \times ksize$ ,其中stride是模型的步长，ksize是卷积核大小。我们知道一个 $7 \times 7$ 的卷积核和3层 $3 \times 3$ 的卷积核具有相同的感受野，由于3层的感受野具有更深的深度，因此可以构建出更具有判别性的函数。
假设特征图的数量是C,3层 $3 \times 3$ 的卷积核的参数数量是 $3 \times (3 \times 3 + 1)\times C=30C$ ,但是 $7 \times 7$ 的卷积核的参数数量是 $1 \times (7 \times 7 + 1)\times C=50C$ , 参数量更大。

VGG家族

VGG-A(11层)，VGG-B(13层)，VGG-D(16层)，VGG-E(19层)的错误率随着网络的深度增加，分类的错误率是逐渐降低的,当然深度也意味着训练时间越来越长，但是当深度达到VGG-D以后，网络的错误率开始收敛，这就是网络退化的问题。

VGG-B 和VGG-C

VGG-C在VGG-B的基础上添加了3个 $1 \times 1$ 卷积核。而 $1 \times 1$ 卷积核主要的作用如下。

实现特征图的升维和降维
实现特征图之间的交互。

VGG-C 和VGG-D

VGG-D将VGG-C中的 $1 \times 1$ 卷积核换成了 $3 \times 3$ 卷积核，当然也证明了 $3 \times 3$ 卷积核的提升效果是优于 $1 \times 1$ 卷积核的。

VGG-C 和VGG-E

当网络增加到16层的时候，网络损失函数收敛，当提升到19层的时候，虽然精度有些提升，但是需要训练时间大幅度增加。

更宽的神经网络: GoogleNet

我了了解GoogleNet，咱们先了解一下可以拟合任何凸函数的maxout网络和可以拟合任意函数的MIN网络结果。

Maxout网络

Maxout是深度学习网络中的一层网络，就像池化层、卷积层一样等，我们可以把maxout 看成是网络的激活函数层。
这里可以先介绍一下dropout操作，首先假设一层神经网络中有n个神经元，其输出为一个神经元。加上dropout后，有 $n \times p$ 个神经元失活，未加dropout前，其理想输出为z的话，那么经过dropout后这层神经元的输出期望就变成了 $(1-p) \times z=(1-p)z$ ，由前文可知，dropout相当于求多个神经网络的平均值，那么一个网络的输出值就为(1-p)z。我们需要保证这个网络在训练和测试阶段的输出基本不变即求网络的平均值。那么就有两种方式来解决：
dropout
第一种在训练的时候，让这个网络的输出缩放1/(1-p)倍，那么它的输出期望就变成(1-p)z/(1-p)=z，和不dropout的输出期望一致；
第二种方式是在测试的时候，让神经元的输出缩放(1-p)倍，那么它的输出期望就变成了(1-p)z，和训练时的期望是一致的。
这里引出Maxout网络，与其使用dropout这种方式进行选择，不如有条件的选择节点来生成网络。如果第i个隐层的计算方式为

h_{i}=w_{x_{i}}+b

假设第i-1层和第i层的节点分别是d和m，那么w是 $d \times m$ 的二维矩阵。而Maxout网络中W是三维矩阵， $d \times m \times k$ ，其中k表示网络中的通道数。

h_{i}=max_{j \in [1,k]} z_{i,j} \\ z_{i,j}=xW_{i,j}+b_{i,j}

下面一个图来看看如果i-1层有两个神经元，i层有1个神经元的例子。

就是一个k=3的maxout网络，其中红线是求max操作。
maxout网络存在一个比较大的问题是参数的数量是传统神经网的k倍，而这个参数的规模提升并没有带来相应的精度提升。

MIN网络

maxout网络可以逼近任何的凸函数，而MIN网络理论上能够逼近任何函数，MIN网络中采用整图滑窗的形式，只是将CNN卷积核替换成了一个小型的MLP网络。如下图
MIN网络结构
在卷积操作中，一次卷积操作仅仅相当于卷积核和滑动窗口的一次卷积乘法，其拟合能力有限。而使用MLP替代以后卷积操作增加了每次滑动窗口的拟合能力。同时也带来了如下的优点。