• 监督学习方法

  • 根据已收集的输入(特征)和输出(目标)数据,学习它们的关系

1D Linear Regression

数学形式:

  • 传统写法:

  • 机器学习写法:

    • = 权重(weight)

    • = 偏置(bias)

Multivariate Linear Regression

向量/矩阵表示:

  • = 权重向量

  • = 特征矩阵(每行是一个样本)

  • = 目标向量

  • 简化形式:

  • 可视化:

    • 2 特征 → 平面(3D 可视化)

    • 多于 2 特征 → 高维空间的超平面(hyperplane)

数据集中每条记录 → 对应一条线性方程

  • 其中 是样本编号(上标,不是指数)

  • 数据集有 条记录 → 有 条线性方程

  • 目标:求解所有 ,使方程组同时成立(或近似成立)

每行数据的 值不同,但所有行共享同一

  • 如果存在完美预测的 ,则该问题等价于可解析解的线性方程组

  • 条件:

    • 已知全部

    • 样本数量 ≥ 未知数数量( 的个数 +

  • 在机器学习中,通常是迭代、近似求解(最小化误差)

多点线性回归的梯度下降法

1. 问题背景

我们要拟合一个直线模型:

希望它能最好地拟合 n 个观测值


2. 损失函数(均方误差)

对第 个点:

平方后得到该点的损失:

对所有点取平均:

除以 得到均值,乘以 只是为了在求导时抵消指数里的 ,不影响最小值的位置。


3. 梯度公式

分别求偏导:


4. 梯度下降更新

出发,反复迭代:

其中 是学习率。

每次更新,直线都会调整,使整体误差变小。迭代多次后, 会逼近最优解。


5. 可视化理解

  • 左图:实际数据点 + 当前拟合直线。
  • 右图 平面上的损失函数曲面(像碗形),梯度下降就是在这个“碗”里沿着坡度走向最低点。