第 6 章：反向传播

💡 导读： 这是整本小册子最核心的章节。反向传播是神经网络训练的引擎，我们将从最末端的损失函数出发，一步步反向推导，带你领略数学公式中奇妙的“抵消与坍缩”之美。

6.1 问题：参数该如何更新？（量化推导）

训练的终极目标是让损失函数 $L$ 的值尽可能小。我们目前有 39,760 个参数，每次前向传播计算出损失后，我们需要弄清楚：该把每个参数调大一点，还是调小一点？

这里我们需要用微积分中的一阶泰勒展开式来进行量化。假设我们给参数 $θ$ 施加一个极小的变化量 $Δ θ$ ，那么新的损失可以近似表示为：

L (θ + Δ θ) \approx L (θ) + Δ θ \cdot \frac{\partial L}{\partial θ}

我们的目标是让新的损失变小，即 $L (θ + Δ θ) < L (θ)$ 。这就要求公式右边的尾巴必须是负数：

Δ θ \cdot \frac{\partial L}{\partial θ} < 0

这就得出了参数更新的铁律：变化量 $Δ θ$ 的符号，必须和梯度 $\frac{\partial L}{\partial θ}$ 的符号相反！

如果梯度 > 0：为了让乘积小于 0， $Δ θ$ 必须为负（即减小参数）。
如果梯度 < 0：为了让乘积小于 0， $Δ θ$ 必须为正（即增大参数）。

反向传播算法，就是用来极其高效地计算出所有参数对应的梯度 $\frac{\partial L}{\partial θ}$ 。

6.2 计算图与链式法则

我们的神经网络前向传播是一条严密的流水线（从左到右）：

输入 $X \to$ [线性输出 $a_{1}$ ] $\to$ [激活输出 $z_{1}$ ] $\to$ [线性输出 $a_{2}$ ] $\to$ [激活输出 $y$ ] $\to$ [计算损失 $L$ ]

反向传播则是时光倒流，利用链式法则，从最右边的 $L$ 逐级向左求导：

L \to \frac{\partial L}{\partial y} \to \frac{\partial L}{\partial a_{2}} \to \frac{\partial L}{\partial z_{1}} \to \frac{\partial L}{\partial a_{1}} \to \frac{\partial L}{\partial W_{1}}

6.3 符号约定

为了让接下来的推导清晰无负担，我们约定以下符号。黄金规律：任何一层变量的梯度矩阵，其形状（Shape）必定与原变量完全一致。

变量含义	梯度简写	数学表达	矩阵形状 (Shape)
第二层激活输出 (预测概率)	$d y_{o u t}$	$\frac{\partial L}{\partial y}$	`(n, 10)`
第二层线性输出 (Logits)	$d a_{2}$	$\frac{\partial L}{\partial a_{2}}$	`(n, 10)`
第一层激活输出	$d z_{1}$	$\frac{\partial L}{\partial z_{1}}$	`(n, 50)`
第一层线性输出	$d a_{1}$	$\frac{\partial L}{\partial a_{1}}$	`(n, 50)`
第二层权重参数	$d W_{2}$	$\frac{\partial L}{\partial W_{2}}$	`(50, 10)`
第二层偏置参数	$d b_{2}$	$\frac{\partial L}{\partial b_{2}}$	`(10,)`
第一层权重参数	$d W_{1}$	$\frac{\partial L}{\partial W_{1}}$	`(784, 50)`
第一层偏置参数	$d b_{1}$	$\frac{\partial L}{\partial b_{1}}$	`(50,)`

(注： $n$ 为批量样本大小，推导时我们先按单个样本推导，最后求平均)

6.4 第一步：损失对激活输出求导 ( $L \to y$ )

我们要弄清楚：交叉熵的导数 $\frac{\partial ℓ}{\partial y_{t}} = - \frac{1}{y_{t}}$ 到底是怎么来的？

首先，我们给出多分类交叉熵损失函数（Cross-Entropy Loss）的通用标准公式。对于单个样本，假设网络总共有 $C$ 个类别（在我们的数字识别里 $C = 10$ ）。 $y_{j}$ 是网络预测的第 $j$ 个类别的概率， $t_{j}$ 是该类别的真实标签。公式为：

ℓ = - \sum_{j = 0}^{C - 1} t_{j} \log (y_{j})

化简过程（One-Hot 编码的魔法）： 这里的真实标签 $t$ 是一个 One-Hot 向量。这意味着，除了正确的那个类别（假设索引为 $t$ ）对应的值 $t_{t} = 1$ 之外，其他所有错误类别对应的值全是 $0$ 。当你把这个 One-Hot 向量代入求和公式时，所有等于 $0$ 的项全部灰飞烟灭了：

ℓ = - (0 \cdot \log (y_{0}) + \dots + 1 \cdot \log (y_{t}) + \dots + 0 \cdot \log (y_{9}))

所以，标准公式直接坍缩成了我们在书里常用的极简形式：

ℓ = - \log (y_{t})

求导过程： 现在，我们要看这个损失 $ℓ$ 是如何随着网络的预测概率 $y$ 而变化的。微积分里有一个基础公式： $\frac{d}{d x} \log (x) = \frac{1}{x}$ 。

当求导目标是正确类别的概率 $y_{t}$ 时： 公式 $ℓ = - \log (y_{t})$ 里刚好有 $y_{t}$ ，直接套用对数求导公式，保留外面的负号：
$\frac{\partial ℓ}{\partial y_{t}} = - \frac{1}{y_{t}}$
当求导目标是其他错误类别的概率 $y_{j}$ 时 ( $j \neq t$ )： 公式 $ℓ = - \log (y_{t})$ 里根本没有 $y_{j}$ 这个变量！对于 $y_{j}$ 来说，整项 $- \log (y_{t})$ 就像一个常数。常数求导等于 $0$ ：
$\frac{\partial ℓ}{\partial y_{j}} = 0$

这就是第一步梯度的完整由来，没有任何跳跃。这构成了我们向后传递的第一级梯度向量 $\frac{\partial ℓ}{\partial y}$ ，为后面与 Softmax 的雅可比矩阵相乘做好了准备。

6.5 第二步：激活输出对线性输出求导 ( $y \to a_{2}$ )

接下来，梯度要穿过 Softmax 函数，追溯到第二层的线性输出 $a_{2}$ 。 Softmax 的公式为： $y_{j} = \frac{e^{a_{j}}}{\sum_{k} e^{a_{k}}}$ 。

在这里，输入是一个长度为 10 的向量 $a_{2}$ ，输出也是一个长度为 10 的向量 $y$ 。在微积分中，向量对向量求导，会得到一个 $10 \times 10$ 的雅可比矩阵（Jacobian Matrix） $J$ 。矩阵中的每一个元素就是 $\frac{\partial y_{j}}{\partial a_{s}}$ 。

为了求这个导数，我们使用商的求导法则： $(\frac{u}{v})^{'} = \frac{u^{'} v - u v^{'}}{v^{2}}$ 。我们令分母 $S = \sum_{k} e^{a_{k}}$ 。无论对哪个 $a_{s}$ 求导，分母 $S$ 的导数始终是 $e^{a_{s}}$ 。

为什么分两种情况？

情况 A：当 $j = s$ 时（对角线元素） 此时分子 $u = e^{a_{s}}$ ，分子求导 $u^{'} = e^{a_{s}}$ 。

\frac{\partial y_{s}}{\partial a_{s}} = \frac{(e^{a_{s}})^{'} \cdot S - e^{a_{s}} \cdot (S)^{'}}{S^{2}} = \frac{e^{a_{s}} \cdot S - e^{a_{s}} \cdot e^{a_{s}}}{S^{2}}

将其拆分并化简：

= \frac{e^{a_{s}}}{S} - {(\frac{e^{a_{s}}}{S})}^{2} = y_{s} - (y_{s})^{2} = y_{s} (1 - y_{s})

情况 B：当 $j \neq s$ 时（非对角线元素） 此时分子 $u = e^{a_{j}}$ ，因为它不包含 $a_{s}$ ，所以分子求导 $u^{'} = 0$ 。

\frac{\partial y_{j}}{\partial a_{s}} = \frac{(e^{a_{j}})^{'} \cdot S - e^{a_{j}} \cdot (S)^{'}}{S^{2}} = \frac{0 \cdot S - e^{a_{j}} \cdot e^{a_{s}}}{S^{2}}

将其拆分并化简：

= - (\frac{e^{a_{j}}}{S}) \cdot (\frac{e^{a_{s}}}{S}) = - y_{j} y_{s}

至此，我们得到了完整的雅可比矩阵 $J$ 。

6.6 见证奇迹：损失对线性输出的联合求导 ( $L \to a_{2}$ )

现在，我们要将第一步和第二步结合。根据多元微积分的链式法则，损失 $ℓ$ 对线性输出向量 $a_{2}$ 的梯度，等于损失对概率向量的梯度乘以雅可比矩阵：

\frac{\partial ℓ}{\partial a_{2}} = \frac{\partial ℓ}{\partial y} \cdot J

展开为代数求和的形式，我们要计算 $ℓ$ 对某一个具体线性输出 $a_{s}$ 的导数：

\frac{\partial ℓ}{\partial a_{s}} = \sum_{j = 0}^{9} \frac{\partial ℓ}{\partial y_{j}} \cdot \frac{\partial y_{j}}{\partial a_{s}}

魔法时刻 1：雅可比矩阵的坍缩 回想 6.4 节，除了 $j = t$ 的位置， $\frac{\partial ℓ}{\partial y_{j}}$ 全都是 $0$ ！

这意味着，长达 10 项的求和公式直接坍缩，只剩下唯一的一项：

\frac{\partial ℓ}{\partial a_{s}} = \frac{\partial ℓ}{\partial y_{t}} \cdot \frac{\partial y_{t}}{\partial a_{s}} = (- \frac{1}{y_{t}}) \cdot \frac{\partial y_{t}}{\partial a_{s}}

魔法时刻 2：复杂分式的完美抵消 现在，把 6.5 节求得的雅可比矩阵元素代入进来：

如果 $s = t$ （即求导位置恰好是正确类别的打分）： 代入情况 A 的结果： $\frac{\partial ℓ}{\partial a_{t}} = (- \frac{1}{y_{t}}) \cdot [y_{t} (1 - y_{t})] = - (1 - y_{t}) = y_{t} - 1$
如果 $s \neq t$ （即求导位置是错误类别的打分）： 代入情况 B 的结果： $\frac{\partial ℓ}{\partial a_{s}} = (- \frac{1}{y_{t}}) \cdot [- y_{t} y_{s}] = y_{s} = y_{s} - 0$

极简结论： 无论是哪种情况，最终结果都可以统一为一句极度优美的话：损失对该层线性输出的梯度，就等于网络的预测概率减去该类别的真实标签（1 或 0）。

若推广到 $n$ 个样本求平均，用矩阵形式表达就是：

d a_{2} = \frac{1}{n} (y - T)

(其中 $T$ 是正确位置为 1、其余为 0 的 One-Hot 标签矩阵)

6.7 第三步：线性输出对参数及前一层求导 ( $a_{2} \to W_{2}, b_{2}, z_{1}$ )

源头梯度 $d a_{2}$ 拿到了，接下来的推导就是纯粹的矩阵乘法了。第二层前向传播公式： $a_{2} = z_{1} \cdot W_{2} + b_{2}$

对权重 $W_{2}$ 求导： 根据矩阵微积分法则，梯度等于输入端 $z_{1}$ 的转置乘以输出端梯度 $d a_{2}$ ： $d W_{2} = z_{1}^{T} \cdot d a_{2}$
对偏置 $b_{2}$ 求导： 因为偏置是对所有 $n$ 个样本进行“广播”相加的，反向传播时需要把这 $n$ 个样本的梯度按列累加： $d b_{2} = \sum_{i = 1}^{n} d a_{2}^{(i)}$
向上一层回传梯度： 为了让网络继续反向传播，需要求出对隐藏层输出 $z_{1}$ 的梯度： $d z_{1} = d a_{2} \cdot W_{2}^{T}$

6.8 第四步：梯度穿透隐藏层激活函数 ( $z_{1} \to a_{1}$ )

梯度来到了第一层的 Sigmoid 激活函数： $z_{1} = σ (a_{1})$ 。

Sigmoid 的导数公式为： $σ^{'} (x) = σ (x) (1 - σ (x))$ 。由于激活函数是逐元素独立运算的（没有雅可比矩阵复杂的交叉项），我们可以直接将传回来的梯度 $d z_{1}$ 与局部导数进行逐元素相乘（记为 $⊙$ ）：

d a_{1} = d z_{1} ⊙ (z_{1} ⊙ (1 - z_{1}))

6.9 第五步：第一层参数的梯度 ( $a_{1} \to W_{1}, b_{1}$ )

这就完全是 6.7 节的重演了。第一层前向公式： $a_{1} = X \cdot W_{1} + b_{1}$

权重梯度：

d W_{1} = X^{T} \cdot d a_{1}

偏置梯度（对 $n$ 个样本求和）：

d b_{1} = \sum_{i = 1}^{n} d a_{1}^{(i)}

6.10 反向传播：极其优雅的代码实现

将上述纯数学公式翻译成代码，利用 NumPy 的高级索引，我们连构造 One-Hot 矩阵的内存都省了：

python

def _backprop_gradient(self, X, t):
    n = X.shape[0]
    W1, b1 = self.params['W1'], self.params['b1']
    W2, b2 = self.params['W2'], self.params['b2']

    # ================= 前向传播 =================
    a1 = X @ W1 + b1               
    z1 = sigmoid(a1)               
    a2 = z1 @ W2 + b2              
    y  = softmax(a2)               

    # ================= 反向传播 =================
    # 6.4 - 6.6: Softmax 与交叉熵联合梯度 (抵消坍缩后的极简实现)
    da2 = y.copy()
    da2[np.arange(n), t] -= 1       # 精准在正确类别的位置减 1
    da2 /= n

    # 6.7: 第二层参数与回传梯度
    dW2 = z1.T @ da2                
    db2 = np.sum(da2, axis=0)       
    dz1 = da2 @ W2.T                

    # 6.8: 穿透 Sigmoid 激活函数
    da1 = dz1 * (z1 * (1 - z1))     # '*' 代表逐元素相乘

    # 6.9: 第一层参数梯度
    dW1 = X.T @ da1                
    db1 = np.sum(da1, axis=0)      

    return {'W1': dW1, 'b1': db1, 'W2': dW2, 'b2': db2}

6.11 为什么不用数值梯度？

你可能会问：既然可以通过微小的变化 $h$ 来近似计算导数（数值梯度），为什么还要费劲推导反向传播？

\frac{\partial L}{\partial θ_{i}} \approx \frac{L (θ_{i} + h) - L (θ_{i} - h)}{2 h}

数值梯度： 要更新 39,760 个参数，你需要做近 80,000 次前向传播。慢如蜗牛，但代码好写，通常只用来做测试，验证反向传播代码是否写错了。
反向传播： 只需要 1 次前向传播 + 1 次反向计算。速度快约 1000 倍。这是工业界实际训练的唯一方案。

下一章预告：现在我们拿到了所有参数的“指导意见”（梯度），接下来该怎么走？SGD、Momentum、Adam 等各种高级“走法”即将登场。

← 第 5 章 | 返回目录 | 第 7 章：优化器 →

第 6 章：反向传播 ​

6.1 问题：参数该如何更新？（量化推导） ​

6.2 计算图与链式法则 ​

6.3 符号约定 ​

6.4 第一步：损失对激活输出求导 (L→y) ​

6.5 第二步：激活输出对线性输出求导 (y→a2) ​

6.6 见证奇迹：损失对线性输出的联合求导 (L→a2) ​

6.7 第三步：线性输出对参数及前一层求导 (a2→W2,b2,z1) ​

6.8 第四步：梯度穿透隐藏层激活函数 (z1→a1) ​

6.9 第五步：第一层参数的梯度 (a1→W1,b1) ​

6.10 反向传播：极其优雅的代码实现 ​

6.11 为什么不用数值梯度？ ​