参数初始化
我们在进行梯度下降算法的时候,需要进行参数初始化的操作,那就有一个貌似不重要的的问题,参数如何初始化,是真的随机初始化吗?本章我们就来讨论这个问题。
首先参数初始化应满足如下条件
这里你可能会有一个疑问,什么是饱和呢?
- 当我们的n趋近于正无穷,激活函数的导数趋近于0,那么我们称之为右饱和。
- 当我们的n趋近于负无穷,激活函数的导数趋近于0,那么我们称之为左饱和。
当一个函数既满足左饱和又满足右饱和的时候我们就称之为饱和。
对于激活值不为0,也比较好理解,如果我们将参数全部初始化为0,经过相同的操作,最后的值应该是一样的,严重影响模型的性能,深度模型不会用0来作为初始化的值。
常用的参数初始化方法
初始化为0
当然这也是一种简单的初始化方法, 将所有的参数项全部初始化为0, 这也面临一个问题, 第一次进行神经网络传播的时候,基本学不到任何信息, 主要是靠偏置项进行梯度的传播,这种方式可能会导致局部最优,以及收敛速度的问题。
随机生成小的随机数
将参数初始化为小的随机数,从均值为0,标准方差为1的高斯分布中取样,这样的参数每个维度都来自一个多维的高斯分布。一般而言,参数也不能太小,因为在反向传播的时候会导致过小的梯度,对于深度网络而言就梯度弥散,降低参数的收敛速度,导致网络收敛不稳定的问题。
标准初始化
权重参数从确定的区间均匀的随机选值,从区间[−d1,d1]的均匀分布中生成当前神经元的权重,其中d是每个神经元的输入数量,
xavier初始化
这种初始化也是一种比较常用的初始化,理想的初始化应该让各层激活值和状态梯度的方差在传播中的方差保持一致。否则更新后激活值的方差若发生改变,将造成数据不稳定。
xavier初始化做出下面三个假设,这3个假设都是关于激活函数的假设。
激活函数对称,这样就假设每层输入均值为0
f′(0)=1(1.1)
f′(sik)=1(1.2)
xavier的取值范围是
[−ni+ni+16,ni+ni+16](1.3)
12(2b)2=ni+ni+12(1.4)
其中n1和ni+1表示输入和输出的维度。激活值的方差和层数无关,反向传播的方差和层数无关。