1. 向量的大小

(a) L1 范数(Taxicab distance / 曼哈顿距离)

只能走水平和垂直路径时的距离:

更一般地(n 维向量 ):

(b) L2 范数(Euclidean distance / 直线距离)

像直升机飞一样走直线:
二维:

n 维:

默认情况下, 表示 L2 范数


向量组:一组向量的集合的名称

线性相关:其中有向量可以被其他向量线性表示

线性表示:某些向量数乘后的组合

  • 如果两个向量组能互相线性表示,则称二者等价

向量空间(张成空间 / span):几个向量的线性表示的组合的活动范围。可以用向量组来表示

  • R
  • 三维的原点与二维原点维度不同,不能被视为二维,但仍然可以作为向量空间,只不过是三维向量空间
  • 子空间

向量的表示方法

  • 行向量

  • 列向量:…

  • 也可以用 x 表示向量。

  • 括号与方括号只是记号差异,无概念区别。

Linear Transformations

Parallelogram rule:平行四边形的对角线 Difference of vectors:平行四边形的另一条对角线 Scalar multiplication:拉长、缩短、反向

1. 点积(Dot Product)定义

给定两个 维向量

点积定义

另一种常用记法:


2. 例子:水果价格

  • 水果数量向量:
  • 单价向量:

总价

矩阵写法(行向量 × 列向量):


3. 点积与范数(Norm)的关系

L2 范数


4. 转置(Transpose)

  • 列向量 → 行向量
  • 行向量 → 列向量
  • 矩阵转置: 若 矩阵, 矩阵,行列互换:

5. 关键要点

  • 点积本质上是对应元素相乘再相加
  • 几何意义(二维/三维):
  • 范数是点积的特殊情况(向量和自己点积再开方)
  • 转置用于调整向量形状(行 vs 列)以便做矩阵运算

6. 点积与向量夹角关系

6.1 正交(Orthogonal)与点积为 0

  • 定义:若 ,则 正交(垂直)。
  • 例子

两向量正交。


6.2 点积的几何公式

对于任意 ,有:

其中:

  • 的夹角
  • 表示 L2 范数(长度)

6.3 投影解释

  • 点积等于一个向量在另一个向量上的投影长度 × 另一个向量的长度
  • 无论是 投影到 ,还是 投影到 ,点积结果相同

公式:


6.4 点积符号与方向关系

  • :夹角 ,同向成分为正
  • :夹角 ,正交
  • :夹角 ,反向成分为负



6.5 几何区域

  • 对于固定向量
    • 正交区域:所有与 点积为 0 的向量,位于一条垂直于 的直线上
    • 正点积区域:位于 正方向的半平面
    • 负点积区域:位于 反方向的半平面

7. 矩阵与向量相乘

7.1 点积回顾

  • 两个向量的点积(dot product):
  • 例:

可写为:


7.2 系统的线性方程组

假设有三个未知数 和三个方程:

每个方程都可表示为 行向量列向量 的点积:


7.3 矩阵-向量乘法

将系数向量 按行堆叠 形成矩阵:

意义

  • 矩阵 × 向量 = 多个点积的堆叠
  • 每一行与列向量的点积得到一个结果,结果按行组成新的列向量。

7.4 维度匹配条件

  • 若矩阵是 ,向量必须是
  • 乘积结果是 向量。
  • 列数 = 向量长度,否则点积无法定义。 image.png

7.5 矩形矩阵情况

  • 矩阵不一定是方阵。
  • 例: 矩阵 × 长度为 3 的列向量 → 结果是长度为 4 的列向量。

7.6 总结

  • 矩阵 × 向量本质是批量点积
  • 这是表达和求解线性方程组的标准方式:

其中:

  • 是系数矩阵
  • 是未知变量列向量
  • 是常数列向量

Matrices as linear transformations:把平面(或更高维空间)上的每个点,按照某种结构化规则映射到另一个点。

性质:线性变换——原点不变的基变换导致向量变换

Linear transformations as matrices

矩阵乘法在神经网络中的应用:线性分类器与感知机

1. 问题背景:垃圾邮件分类

  • 数据集中有两个高相关词:lotterywin
  • 目标:建立一个分类器(classifier)来判断邮件是否为垃圾邮件(spam)

2. 分类器机制

  1. 为每个词赋一个权重(score/weight)
    • 例:lottery = 3win = 2
  2. 邮件得分 = 每个词出现次数 × 对应权重,再求和(点积 dot product
  3. 阈值判断(threshold)
    • 分数 ≥ 阈值 → 分类为垃圾邮件
    • 分数 < 阈值 → 分类为非垃圾邮件

例:

  • lottery=1win=1,阈值=1.5
  • “win win lottery” → → spam

3. 线性分类器的几何解释

  • 横轴:lottery 出现次数
  • 纵轴:win 出现次数
  • 分类边界:
  • 直线将平面分为正类区域(spam)和负类区域(not spam)

4. 矩阵形式

设:

  • 数据矩阵 (行=邮件,列=特征,即词的出现次数)
  • 权重向量
  • 阈值

预测:


5. 阈值与偏置(Bias)

  • 阈值判断 等价于
  • 作为 bias,可写成:
  • 检查 → spam

矩阵实现:

  • 在数据矩阵 增加一列常数
  • 在权重向量 增加一个分量

6. AND 运算的感知机实现

  • 数据: → 1(是)当且仅当
  • 模型:
  • 分类边界:
  • 对应单层感知机(Perceptron)
    1. 输入
    2. 计算
    3. 激活函数(step function):,否则

7. 感知机公式

  • 权重 :特征重要性
  • 偏置 :调整决策边界位置
  • 激活函数:将线性结果转为类别(0/1)