一般来说有以下几种方法:
1.为梯度更新法则加一个冲量项。冲量有时可以带动梯度下降过程,冲过狭窄的局部最下值(然而原则上它也可以带动梯度下降过程冲过狭窄的全局最小值到其他局部极小值!)
2.使用随机的梯度下降而不是真正的梯度下降。梯度下降的随机近似对于每个训练样例沿一个不同的误差曲面有效下降,它依靠这些梯度的平均来逼近对于整个训练集合的梯度。这些不同的误差曲面通常有不同的局部极小值,这使得下降过程不太可能陷入任一个局部极小值。
3.使用同样的数据训练多个网络,但用不同的随机权值初始化每个网络。如果不同的训练过程产生不同的局部极小值,那么对分离的验证集合性能最好的网络被选择。或者保留所有的网络,并且把它们当作一个网络“委员会”,它们的输出是每个网络输出的平均值(可能加权)。