批规范化是指在每次随机梯度下降时,通过mini-batch来对相应的activation做规范化操作,使得结果的均值为0,方差为1. 从而保证整个网络的capacity。
批规范化是指在每次随机梯度下降时,通过 mini-batch 来对相应的 activation 做规范化操作,使得结果(输出信号各个维度)的均值为 0,方差为 1. 而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的 BN 能够有可能还原最初的输入,从而保证整个网络的 capacity。
2015 年深度学习领域,BN 出自论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,这个算法当前已经被大量的应用,最新的文献算法很多都会引用这个算法,进行网络训练,可见其强大之处非同一般。
深度学习捷报连连、声名鹊起,随机梯度下降成了训练深度网络的主流方法。尽管随机梯度下降法对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率、参数初始化、权重衰减系数、Drop out 比例等。这些参数的选择对训练结果至关重要,以至于我们很多时间都浪费在这些的调参上。那么学完这篇文献之后,你可以不需要那么刻意的慢慢调整参数。BN 算法(Batch Normalization)其强大之处如下:
(1)可以选择比较大的初始学习率,让你的训练速度飙涨。以前还需要慢慢调整学习率,甚至在网络训练到一半的时候,还需要想着学习率进一步调小的比例选择多少比较合适,可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为这个算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性;
(2)再也不用去理会过拟合中 drop out、L2 正则项参数的选择问题,采用 BN 算法后,你可以移除这两项了参数,或者可以选择更小的 L2 正则约束参数了,因为 BN 具有提高网络泛化能力的特性;
(3)再也不需要使用使用局部响应归一化层了(局部响应归一化是 Alexnet 网络用到的方法,搞视觉的估计比较熟悉),因为 BN 本身就是一个归一化网络层;
(4)可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高 1%的精度)。
开始讲解算法前,先来思考一个问题:在神经网络训练开始前,都要对输入数据做一个归一化处理,那么具体为什么需要归一化呢?归一化后有什么好处呢?原因在于神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度,这也正是为什么我们需要对数据都要做一个归一化预处理的原因。
对于深度网络的训练是一个复杂的过程,只要网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变,那么这一层网络就需要去适应学习这个新的数据分布,所以如果训练过程中,训练数据的分布一直在发生变化,那么将会影响网络的训练速度。
网络一旦 train 起来,那么参数就要发生更新,除了输入层的数据外(因为输入层数据,我们已经认为的为每个样本归一化),后面网络每一层的输入数据分布是一直在发生变化的,因为在训练的时候,前面层训练参数的更新将导致后面层输入数据分布的变化。以网络第二层为例:网络的第二层输入,是由第一层的参数和 input 计算得到的,而第一层的参数在整个训练过程中一直在变化,因此必然会引起后面每一层输入数据分布的改变。我们把网络中间层在训练过程中,数据分布的改变称之为:“Internal CovariateShift”。Paper 所提出的算法,就是要解决在训练过程中,中间层数据分布发生改变的情况,于是就有了 BatchNormalization,这个牛逼算法的诞生。
作用
BN 也属于网络的一层。网络除了输出层外,其它层因为低层网络在训练的时候更新了参数,而引起后面层输入数据分布的变化。这个时候我们可能就会想,如果在每一层输入的时候,再加个预处理操作那该有多好啊,比如网络第三层输入数据 X3(X3 表示网络第三层的输入数据)把它归一化至:均值 0、方差为 1,然后再输入第三层计算,这样我们就可以解决“InternalCovariateShift”的问题了。
而事实上,paper 的算法本质原理就是这样:在网络的每一层输入的时候,又插入了一个归一化层,也就是先做一个归一化处理,然后再进入网络的下一层。不过文献归一化层,可不像我们想象的那么简单,它是一个可学习、有参数的网络层。
算法实现
其实如果是仅仅使用上面的归一化公式,对网络某一层 A 的输出数据做归一化,然后送入网络下一层 B,这样是会影响到本层网络 A 所学习到的特征的。打个比方,比如网络中间某一层学习到特征数据本身就分布在 S 型激活函数的两侧,你强制把它给我归一化处理、标准差也限制在了 1,把数据变换成分布于 s 函数的中间部分,这样就相当于我这一层网络所学习到的特征分布被你搞坏了,这可怎么办?于是作者使出了变换重构,引入了可学习参数γ、β,这就是算法关键之处:
是可以恢复出原始的某一层所学到的特征的。因此我们引入了这个可学习重构参数γ、β,让我们的网络可以学习恢复出原始网络所要学习的特征分布。最后 BatchNormalization 网络层的前向传导过程公式就是:
公式中 m 指的是 mini-batchsize。
一个网络一旦训练完了,就没有了 min-batch 这个概念了。测试阶段我们一般只输入一个测试样本,看看结果而已。因此测试样本,前向传导的时候,上面的均值 u、标准差σ要哪里来?其实网络一旦训练完毕,参数都是固定的,这个时候即使是每批训练样本进入网络,那么 BN 层计算的均值 u、和标准差都是固定不变的。可以采用这些数值来作为测试样本所需要的均值、标准差,于是最后测试阶段的 u 和σ 计算公式如下:
对于均值来说直接计算所有 batch u 值的平均值;然后对于标准偏差采用每个 batchσB 的无偏估计最后测试阶段,BN 的使用公式就是: