Backpropagation Details

反向传播是一种用于训练人工神经网络的算法，特别是在深度学习中很常用。它通过计算神经网络的预测结果与实际结果之间的误差，进而调整网络中的权重和偏置，以最小化预测误差。

假设我们有一个简单的三层神经网络用于分类任务：

步骤：

前向传播：
- 输入两个特征 ( $x_1, x_2$ )。
- 权重 $w_1, w_2$ 和偏置 (b) 将输入线性组合后传递给隐藏层节点，并应用激活函数（如 ReLU 或 Sigmoid）。
- 隐藏层输出传递给输出层，再次经过线性组合和激活函数后，输出预测值 $\hat{y}$ 。
计算误差：
- 使用损失函数计算实际值 $y$ 和预测值 $\hat{y}$ 之间的误差。例如，如果损失函数是均方误差（MSE），则误差为： $\text{Loss} = \frac{1}{2}(\hat{y} - y)^2$
反向传播误差：
- 通过链式求导，计算输出层到隐藏层、再到输入层的各个权重的偏导数。这些偏导数表示每个权重对最终误差的贡献。
更新权重：
- 使用梯度下降法调整权重： $w_{\text{new}} = w_{\text{old}} - \eta \frac{\partial \text{Loss}}{\partial w}$ 其中， $\eta$ 是学习率。

通过不断进行多次前向传播和反向传播，神经网络会逐步学会减少误差，从而提高预测的准确性。

这个过程可以扩展到更深的神经网络和更多的复杂问题。

在反向传播中， $\frac{\partial \text{Loss}}{\partial w}$ （即损失函数对权重 $w$ 的偏导数）是通过链式法则计算得出的。这个偏导数告诉我们权重的变化会对损失函数产生多大的影响，从而帮助我们更新权重，减小误差。

假设我们使用均方误差（MSE）作为损失函数，定义为：

\text{Loss} = \frac{1}{2}(\hat{y} - y)^2

其中， $\hat{y}$ 是神经网络的预测值， $y$ 是真实值。

对 $\hat{y}$ 求导数，得到：

\frac{\partial \text{Loss}}{\partial \hat{y}} = \hat{y} - y

假设神经网络输出 $\hat{y}$ 是通过线性组合输入和权重得到的，即：

\hat{y} = w \cdot x + b

其中， $w$ 是权重， $x$ 是输入， $b$ 是偏置。

现在，我们对 $w$ 求导数：

\frac{\partial \hat{y}}{\partial w} = x

这意味着输出 $\hat{y}$ 对权重的导数等于输入 $x$ 。

现在，我们可以通过链式法则，将损失函数对权重的偏导数计算出来：

\frac{\partial \text{Loss}}{\partial w} = \frac{\partial \text{Loss}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial w}

代入之前的公式，得到：

\frac{\partial \text{Loss}}{\partial w} = (\hat{y} - y) \cdot x

这表示，权重的更新是基于预测误差 $(\hat{y} - y)$ 和输入 $x$ 之间的乘积。

最后，使用梯度下降法更新权重：

w_{\text{new}} = w_{\text{old}} - \eta \cdot \frac{\partial \text{Loss}}{\partial w}

其中， $\eta$ 是学习率，决定了权重更新的步长。

$\frac{\partial \text{Loss}}{\partial w}$ 可以通过以下步骤得出：

这个过程可以扩展到更加复杂的神经网络，每一层的权重都可以通过类似的方式进行更新。

Last updated 10 months ago