链式法则与反向传播推导

1. 线性回归中的链式法则推导

1.1 结构关系

$L$ 依赖于 $\overset{y}{^}$ ： $L \to \overset{y}{^}$
$\overset{y}{^}$ 依赖于 $w_{1}, w_{2}, b$ ： $\overset{y}{^} = w_{1} x_{1} + w_{2} x_{2} + b$

1.2 公共部分

对所有参数：

\frac{\partial L}{\partial y ^} = - (y - \overset{y}{^})

因为 $L = \frac{1}{2} (y - \overset{y}{^})^{2}$ ，求导得到 $(y - \overset{y}{^}) (- 1)$

1.3 各参数的局部导数

\frac{\partial y ^}{\partial b} = 1

\frac{\partial y ^}{\partial w _{1}} = x_{1}

\frac{\partial y ^}{\partial w _{2}} = x_{2}

1.4 梯度公式

结合链式法则：

\frac{\partial L}{\partial b} = - (y - \overset{y}{^}) \cdot 1

\frac{\partial L}{\partial w _{1}} = - (y - \overset{y}{^}) \cdot x_{1}

\frac{\partial L}{\partial w _{2}} = - (y - \overset{y}{^}) \cdot x_{2}

1.5 参数更新（梯度下降）

w_{1} \leftarrow w_{1} + α (y - \overset{y}{^}) x_{1}

w_{2} \leftarrow w_{2} + α (y - \overset{y}{^}) x_{2}

b \leftarrow b + α (y - \overset{y}{^})

其中 $α$ 为学习率。

2. 损失函数与优化目标

2.1 模型目标

找到最佳 $w_{1}, w_{2}, b$
使预测 $\overset{y}{^}$ 与真实值 $y$ 的误差最小
误差度量：均方误差（MSE）

2.2 均方误差

对于数据集 ${(x_{1}^{(i)}, x_{2}^{(i)}, y^{(i)})}$ ：

L (w_{1}, w_{2}, b) = \frac{1}{n} i = 1 \sum n (\overset{y}{^}^{(i)} - y^{(i)})^{2}

其中：

\overset{y}{^}^{(i)} = w_{1} x_{1}^{(i)} + w_{2} x_{2}^{(i)} + b

2.3 梯度下降法

w_{j} \leftarrow w_{j} - α \frac{\partial L}{\partial w _{j}}, b \leftarrow b - α \frac{\partial L}{\partial b}

3. 多层神经网络的反向传播

3.1 网络结构

输入层： $x$
隐藏层 1： $W^{[1]}, b^{[1]}, a^{[1]} = σ (z^{[1]})$
隐藏层 2： $W^{[2]}, b^{[2]}, a^{[2]} = σ (z^{[2]})$
输出层： $W^{[3]}, b^{[3]}, \overset{y}{^} = σ (z^{[3]})$

3.2 损失函数（Log Loss）

L (y, \overset{y}{^}) = - y lo g (\overset{y}{^}) - (1 - y) lo g (1 - \overset{y}{^})

3.3 反向传播步骤

输出层：

δ^{[3]} = \overset{y}{^} - y

\frac{\partial L}{\partial W ^{[3]}} = δ^{[3]} (a^{[2]})^{⊤}

\frac{\partial L}{\partial b ^{[3]}} = δ^{[3]}

隐藏层 2：

δ^{[2]} = (W^{[3]})^{⊤} δ^{[3]} ⊙ a^{[2]} (1 - a^{[2]})

\frac{\partial L}{\partial W ^{[2]}} = δ^{[2]} (a^{[1]})^{⊤}

\frac{\partial L}{\partial b ^{[2]}} = δ^{[2]}

隐藏层 1：

δ^{[1]} = (W^{[2]})^{⊤} δ^{[2]} ⊙ a^{[1]} (1 - a^{[1]})

\frac{\partial L}{\partial W ^{[1]}} = δ^{[1]} (x)^{⊤}

\frac{\partial L}{\partial b ^{[1]}} = δ^{[1]}

3.4 参数更新

W^{[l]} \leftarrow W^{[l]} - α \frac{\partial L}{\partial W ^{[l]}}

b^{[l]} \leftarrow b^{[l]} - α \frac{\partial L}{\partial b ^{[l]}}

My Notes

Explorer

Backpropagation

链式法则与反向传播推导

1. 线性回归中的链式法则推导

1.1 结构关系

1.2 公共部分

1.3 各参数的局部导数

1.4 梯度公式

1.5 参数更新（梯度下降）

2. 损失函数与优化目标

2.1 模型目标

2.2 均方误差

2.3 梯度下降法

3. 多层神经网络的反向传播

3.1 网络结构

3.2 损失函数（Log Loss）

3.3 反向传播步骤

3.4 参数更新

Graph View

Table of Contents

Backlinks