-
监督学习方法
-
根据已收集的输入(特征)和输出(目标)数据,学习它们的关系
1D Linear Regression
数学形式:
-
传统写法:
-
机器学习写法:
-
= 权重(weight)
-
= 偏置(bias)
-
Multivariate Linear Regression
向量/矩阵表示:
-
= 权重向量
-
= 特征矩阵(每行是一个样本)
-
= 目标向量
-
简化形式:
-
可视化:
-
2 特征 → 平面(3D 可视化)
-
多于 2 特征 → 高维空间的超平面(hyperplane)
-
数据集中每条记录 → 对应一条线性方程
-
其中 是样本编号(上标,不是指数)
-
数据集有 条记录 → 有 条线性方程
-
目标:求解所有 和 ,使方程组同时成立(或近似成立)
每行数据的 和 值不同,但所有行共享同一组 和 。
-
如果存在完美预测的 和 ,则该问题等价于可解析解的线性方程组
-
条件:
-
已知全部 和
-
样本数量 ≥ 未知数数量( 的个数 + )
-
-
在机器学习中,通常是迭代、近似求解(最小化误差)
多点线性回归的梯度下降法
1. 问题背景
我们要拟合一个直线模型:
希望它能最好地拟合 n 个观测值:
2. 损失函数(均方误差)
对第 个点:
平方后得到该点的损失:
对所有点取平均:
除以 得到均值,乘以 只是为了在求导时抵消指数里的 ,不影响最小值的位置。
3. 梯度公式
对 和 分别求偏导:
4. 梯度下降更新
从 出发,反复迭代:
其中 是学习率。
每次更新,直线都会调整,使整体误差变小。迭代多次后, 会逼近最优解。
5. 可视化理解
- 左图:实际数据点 + 当前拟合直线。
- 右图:、 平面上的损失函数曲面(像碗形),梯度下降就是在这个“碗”里沿着坡度走向最低点。