从零实现两层神经网络

这是一个非常关键的误解！你正好卡在了整个推导中最容易把人绕晕的 “下标” 上。

你之所以觉得这里应该是 0，是因为你把 $\frac{\partial ℓ}{\partial y_{j}}$ 和 $\frac{\partial ℓ}{\partial y_{t}}$ 搞混了。让我们放慢动作，把这层窗户纸捅破。

回想一下我们的交叉熵损失函数： $ℓ = - \log (y_{t})$ 。（ $t$ 是正确类别的索引）。

如果网络预测了 3 个类别的概率： $y_{0}, y_{1}, y_{2}$ ，并且真实的正确类别是 $t = 1$ 。那么损失仅仅是： $ℓ = - \log (y_{1})$ 。

现在，我们拿这个 $ℓ$ 去对所有的 $y$ 求偏导：

对 $y_{0}$ 求导：公式里没有 $y_{0}$ ，所以 $\frac{\partial ℓ}{\partial y_{0}} = 0$
对 $y_{1}$ （也就是 $y_{t}$ ）求导：根据对数求导法则， $\frac{\partial ℓ}{\partial y_{1}} = - \frac{1}{y_{1}}$ （注意！这个绝对不是 0）
对 $y_{2}$ 求导：公式里没有 $y_{2}$ ，所以 $\frac{\partial ℓ}{\partial y_{2}} = 0$

结论： 只有当对错误类别的概率求导时，结果才是 0。对正确类别 $t$ 的概率求导时，结果是 $- \frac{1}{y_{t}}$ 。

根据链式法则，我们要求 $ℓ$ 对某个错误类别分数 $a_{s}$ 的导数：

\frac{\partial ℓ}{\partial a_{s}} = \sum_{j} \frac{\partial ℓ}{\partial y_{j}} \cdot \frac{\partial y_{j}}{\partial a_{s}}

展开来看（假设有 3 个类别，正确是 $t = 1$ ，我们正在对错误的 $a_{0}$ 也就是 $s = 0$ 求导）：

= (\frac{\partial ℓ}{\partial y_{0}} \cdot \frac{\partial y_{0}}{\partial a_{0}}) + (\frac{\partial ℓ}{\partial y_{1}} \cdot \frac{\partial y_{1}}{\partial a_{0}}) + (\frac{\partial ℓ}{\partial y_{2}} \cdot \frac{\partial y_{2}}{\partial a_{0}})

现在，把第一步求出的“0”和“非0”代入进去：

= (0 \cdot \dots) + (- \frac{1}{y_{1}} \cdot \frac{\partial y_{1}}{\partial a_{0}}) + (0 \cdot \dots)

看到了吗？正是因为那些 0 的存在，把周围没用的项全部“杀”掉了！ 整个长长的求和公式，最后只活下来了中间那一项（也就是 $j = t$ 的那一项）。

活下来的这一项是：

\frac{\partial ℓ}{\partial y_{t}} \cdot \frac{\partial y_{t}}{\partial a_{s}}

左半边 $\frac{\partial ℓ}{\partial y_{t}}$ ： 它是 $- \frac{1}{y_{t}}$ ，不是 0。
右半边 $\frac{\partial y_{t}}{\partial a_{s}}$ ： 这是在问：“错误类别的打分 $a_{s}$ 变化时，正确类别的概率 $y_{t}$ 会怎么变？”因为 $t \neq s$ （一个是正确类别，一个是错误类别，下标不同），所以应用我们在上一节讲的“非对角线（挤压）”法则，结果是 $- y_{t} y_{s}$ 。

把它们乘在一起：

(- \frac{1}{y_{t}}) \cdot [- y_{t} y_{s}]

负负得正，分母的 $y_{t}$ 和分子的 $y_{t}$ 约掉，最后就得出了完美的结果： $y_{s}$ 。

总结一下你的困惑点： 0 乘以任何数确实是 0，但在链式法则的求和公式中，乘以 0 的那些项（ $j \neq t$ ）已经被彻底消灭丢弃了。我们公式里剩下的 $(- \frac{1}{y_{t}})$ ，是茫茫 0 海中唯一一个不是 0 的幸存者。