1D Linear Regression

数学形式：

Multivariate Linear Regression

$w_{1} x_{1}^{(i)} + w_{2} x_{2}^{(i)} + \dots + w_{n} x_{n}^{(i)} + b = y^{(i)}$ 向量/矩阵表示：

数据集中每条记录 → 对应一条线性方程

每行数据的 $x$ 和 $y$ 值不同，但所有行共享同一组 $w$ 和 $b$ 。

多点线性回归的梯度下降法

1. 问题背景

我们要拟合一个直线模型：

y = m x + b

希望它能最好地拟合 n 个观测值：

(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})

对第 $i$ 个点：

误差_{i} = (m x_{i} + b) - y_{i}

平方后得到该点的损失：

Loss_{i} = (m x_{i} + b - y_{i})^{2}

对所有点取平均：

L (m, b) = \frac{1}{n} i = 1 \sum n (m x_{i} + b - y_{i})^{2}

除以 $n$ 得到均值，乘以 $2$ 只是为了在求导时抵消指数里的 $2$ ，不影响最小值的位置。

对 $m$ 和 $b$ 分别求偏导：

\frac{\partial L}{\partial m} = \frac{2}{n} i = 1 \sum n (m x_{i} + b - y_{i}) x_{i}

\frac{\partial L}{\partial b} = \frac{2}{n} i = 1 \sum n (m x_{i} + b - y_{i})

从 $(m_{0}, b_{0})$ 出发，反复迭代：

m_{k + 1} = m_{k} - α \cdot \frac{\partial L}{\partial m}

b_{k + 1} = b_{k} - α \cdot \frac{\partial L}{\partial b}

其中 $α$ 是学习率。

每次更新，直线都会调整，使整体误差变小。迭代多次后， $(m, b)$ 会逼近最优解。