1. 向量的大小

(a) L1 范数（Taxicab distance / 曼哈顿距离）

只能走水平和垂直路径时的距离：

$∥ x ∥_{1} = ∣ a ∣ + ∣ b ∣$

更一般地（n 维向量 $x = (x_{1}, x_{2}, \dots, x_{n})$ ）：

$∥ x ∥_{1} = \sum_{i = 1}^{n} ∣ x_{i} ∣$

(b) L2 范数（Euclidean distance / 直线距离）

像直升机飞一样走直线：
二维：

$∥ x ∥_{2} = a^{2} + b^{2}$

n 维：

$∥ x ∥_{2} = \sum_{i = 1}^{n} x_{i}^{2}$

默认情况下， $∣ x ∣$ 表示 L2 范数。

向量组：一组向量的集合的名称

线性相关：其中有向量可以被其他向量线性表示

线性表示：某些向量数乘后的组合

如果两个向量组能互相线性表示，则称二者等价

向量空间（张成空间 / span）：几个向量的线性表示的组合的活动范围。可以用向量组来表示

R
三维的原点与二维原点维度不同，不能被视为二维，但仍然可以作为向量空间，只不过是三维向量空间
子空间

向量的表示方法

行向量： $(a, b)$
列向量：…
也可以用 $x$ 、x 表示向量。
括号与方括号只是记号差异，无概念区别。

Linear Transformations

Parallelogram rule：平行四边形的对角线 Difference of vectors：平行四边形的另一条对角线 Scalar multiplication：拉长、缩短、反向

1. 点积（Dot Product）定义

给定两个 $n$ 维向量
$x = (x_{1}, x_{2}, \dots, x_{n}), y = (y_{1}, y_{2}, \dots, y_{n})$

点积定义：

x \cdot y = i = 1 \sum n x_{i} y_{i}

另一种常用记法：

⟨ x, y ⟩

2. 例子：水果价格

水果数量向量：

q = (2, 4, 1)^{T}

单价向量：

p = (3, 5, 2)^{T}

总价：

q \cdot p = 2 \times 3 + 4 \times 5 + 1 \times 2 = 6 + 20 + 2 = 28

矩阵写法（行向量 × 列向量）：

q^{T} p = [241] 352 = 28

3. 点积与范数（Norm）的关系

L2 范数：

∥ x ∥_{2} = x \cdot x

例：

x = (4, 3) \Rightarrow x \cdot x = 4 \times 4 + 3 \times 3 = 25

∥ x ∥_{2} = 25 = 5

4. 转置（Transpose）

列向量 → 行向量：

x^{T} = [x_{1} x_{2} \dots x_{n}]

行向量 → 列向量：

(x^{T})^{T} = x

矩阵转置：若 $A$ 是 $m \times n$ 矩阵， $A^{T}$ 是 $n \times m$ 矩阵，行列互换：

A = a_{11} a_{21} a_{31} a_{12} a_{22} a_{32} \Rightarrow A^{T} = [a_{11} a_{12} a_{21} a_{22} a_{31} a_{32}]

5. 关键要点

点积本质上是对应元素相乘再相加
几何意义（二维/三维）：

x \cdot y = ∥ x ∥_{2} ∥ y ∥_{2} cos θ

范数是点积的特殊情况（向量和自己点积再开方）
转置用于调整向量形状（行 vs 列）以便做矩阵运算

6. 点积与向量夹角关系

6.1 正交（Orthogonal）与点积为 0

定义：若 $u \cdot v = 0$ ，则 $u$ 与 $v$ 正交（垂直）。
例子：

u = (- 1, 3), v = (6, 2)

u \cdot v = (- 1) \times 6 + 3 \times 2 = - 6 + 6 = 0

$\Rightarrow$ 两向量正交。

6.2 点积的几何公式

对于任意 $u, v$ ，有：

u \cdot v = ∥ u ∥_{2} \cdot ∥ v ∥_{2} \cdot cos θ

其中：

$θ$ 是 $u$ 与 $v$ 的夹角
$∥ u ∥_{2}$ 表示 L2 范数（长度）

6.3 投影解释

点积等于一个向量在另一个向量上的投影长度 × 另一个向量的长度
无论是 $u$ 投影到 $v$ ，还是 $v$ 投影到 $u$ ，点积结果相同

公式：

u \cdot v = ∥ u ∥ \cdot (∥ v ∥ cos θ)

6.4 点积符号与方向关系

$u \cdot v > 0$ ：夹角 $θ \in (0^{\circ}, 9 0^{\circ})$ ，同向成分为正
$u \cdot v = 0$ ：夹角 $θ = 9 0^{\circ}$ ，正交
$u \cdot v < 0$ ：夹角 $θ \in (9 0^{\circ}, 18 0^{\circ})$ ，反向成分为负

例：
设 $u = (6, 2)$

$v_{1} = (- 1, 3)$

u \cdot v_{1} = 0 \Rightarrow 正交

$v_{2} = (2, 4)$

u \cdot v_{2} = 6 \times 2 + 2 \times 4 = 20 > 0 \Rightarrow 夹角锐角

$v_{3} = (- 4, 1)$

u \cdot v_{3} = 6 \times (- 4) + 2 \times 1 = - 22 < 0 \Rightarrow 夹角钝角

6.5 几何区域

对于固定向量 $u$ ：
- 正交区域：所有与 $u$ 点积为 0 的向量，位于一条垂直于 $u$ 的直线上
- 正点积区域：位于 $u$ 正方向的半平面
- 负点积区域：位于 $u$ 反方向的半平面

7. 矩阵与向量相乘

7.1 点积回顾

两个向量的点积（dot product）：

u \cdot v = i = 1 \sum n u_{i} v_{i}

例：

2 a + 4 b + c = 28

可写为：

[2, 4, 1] \cdot a b c = 28

7.2 系统的线性方程组

假设有三个未知数 $a, b, c$ 和三个方程：

⎩ ⎨ ⎧ a + b + c = 10 a + 2 b + c = 15 a + b + 2 c = 12

每个方程都可表示为 行向量 与 列向量 的点积：

[1, 1, 1] \cdot a b c = 10

[1, 2, 1] \cdot a b c = 15

[1, 1, 2] \cdot a b c = 12

7.3 矩阵-向量乘法

将系数向量 按行堆叠 形成矩阵：

111121112 a b c = 101512

意义：

矩阵 × 向量 = 多个点积的堆叠。
每一行与列向量的点积得到一个结果，结果按行组成新的列向量。

7.4 维度匹配条件

若矩阵是 $m \times n$ ，向量必须是 $n \times 1$ 。
乘积结果是 $m \times 1$ 向量。
列数 = 向量长度，否则点积无法定义。

7.5 矩形矩阵情况

矩阵不一定是方阵。
例： $4 \times 3$ 矩阵 × 长度为 3 的列向量 → 结果是长度为 4 的列向量。

7.6 总结

矩阵 × 向量本质是批量点积。
这是表达和求解线性方程组的标准方式：

A x = b

其中：

$A$ 是系数矩阵
$x$ 是未知变量列向量
$b$ 是常数列向量

Matrices as linear transformations：把平面（或更高维空间）上的每个点，按照某种结构化规则映射到另一个点。

性质：线性变换——原点不变的基变换导致向量变换

Linear transformations as matrices

矩阵乘法在神经网络中的应用：线性分类器与感知机

1. 问题背景：垃圾邮件分类

数据集中有两个高相关词：lottery 和 win
目标：建立一个分类器（classifier）来判断邮件是否为垃圾邮件（spam）

2. 分类器机制

为每个词赋一个权重（score/weight）
- 例：lottery = 3，win = 2
邮件得分 = 每个词出现次数 × 对应权重，再求和（点积 dot product）
阈值判断（threshold）：
- 分数 ≥ 阈值 → 分类为垃圾邮件
- 分数 < 阈值 → 分类为非垃圾邮件

例：

lottery=1，win=1，阈值=1.5
“win win lottery” → $2 \times 1 + 1 \times 1 = 3 \geq 1.5$ → spam

3. 线性分类器的几何解释

横轴：lottery 出现次数
纵轴：win 出现次数
分类边界： $1 \cdot lottery + 1 \cdot win = 1.5$
直线将平面分为正类区域（spam）和负类区域（not spam）

4. 矩阵形式

设：

数据矩阵 $X$ （行=邮件，列=特征，即词的出现次数）
权重向量 $w$
阈值 $t$

预测：

score = X \cdot w

\overset{y}{^} = {spam not spam if score \geq t otherwise

5. 阈值与偏置（Bias）

阈值判断 $score \geq t$ 等价于 $score - t \geq 0$
将 $b = - t$ 作为 bias，可写成：

score = X \cdot w + b

检查 $score \geq 0$ → spam

矩阵实现：

在数据矩阵 $X$ 增加一列常数 $1$
在权重向量 $w$ 增加一个分量 $b$

6. AND 运算的感知机实现

数据： $(x, y)$ → 1（是）当且仅当 $x = 1$ 且 $y = 1$
模型：

w = (1, 1), b = - 1.5 （可变数）

分类边界： $x + y - 1.5 = 0$
对应单层感知机（Perceptron）：
1. 输入 $(x, y)$
2. 计算 $z = w \cdot (x, y) + b$
3. 激活函数（step function）： $z \geq 0 \to 1$ ，否则 $0$

7. 感知机公式

output = activation (w \cdot x + b)

权重 $w$ ：特征重要性
偏置 $b$ ：调整决策边界位置
激活函数：将线性结果转为类别（0/1）

My Notes

Explorer

Vectors and Linear Transformations