“梯度消失”(更常见表达为 vanishing gradient)指在训练深层神经网络时,误差反向传播到前面层时梯度变得非常小,导致早期层参数更新几乎停滞,从而学习变慢甚至学不动;在循环神经网络中尤其容易影响长程依赖的学习。
/ˈɡreɪdiənt ˈvænɪʃɪŋ/
The model learns slowly because of gradient vanishing.
由于梯度消失,模型学习得很慢。
In very deep networks, gradient vanishing can prevent earlier layers from receiving useful training signals, so techniques like ReLU or residual connections are often used.
在非常深的网络中,梯度消失会让前面层拿不到有效的训练信号,因此常用 ReLU 或残差连接等技巧来缓解。
Gradient 源自拉丁语 gradus(“步、级”),在数学与机器学习里指“变化的方向与大小”(梯度)。Vanishing 来自 vanish(“消失、变得看不见”)。合起来就是“梯度逐层变小直至几乎消失”的现象。