My Notes

❯

Multi View Geometry

Multi-View Geometry

Aug 11, 20255 min read

Site Unreachable

多视图几何是计算机视觉与摄影测量学的核心理论分支，旨在通过多个视角的图像观测，联合恢复三维场景结构及相机运动参数。其核心在于利用多视点间的几何约束关系（如极线约束、重投影一致性]）构建数学优化问题，最终实现场景的三维重建与运动估计。

1. 多视角几何（Multi-View Geometry）

是一门理论学科/数学工具，研究相机投影模型、不同视角之间的几何约束。
核心内容：
- 相机模型（针孔模型、内外参）
- 两视图几何（基础矩阵 F、本质矩阵 E、极线约束）
- 多视图几何（三焦张量、投影一致性）
作用：提供了严格的数学框架，让我们知道不同照片之间的点应该满足什么几何关系。

2. 多视角立体重建（Multi-View Stereo / Structure-from-Motion）

是一个应用任务/工程方法，目标是用多张二维图像重建三维场景和相机运动。
它把 多视角几何的理论 作为基础，用于建立优化问题：
- 用极线约束指导特征匹配。
- 用重投影误差作为优化目标。
- 用三角测量恢复 3D 点坐标。
常见实现：SfM、MVS、COLMAP pipeline。

1. 核心概念

对极几何 (Epipolar Geometry)：相机在三维空间中自由移动并拍摄一个非平面的场景。
- 基础矩阵 (Fundamental Matrix,
  
  $F$
  
  )：用于未标定的相机（即我们不知道相机的焦距等内参）。
- 本质矩阵 (Essential Matrix,
  
  $E$
  
  )：用于已标定的相机（相机内参已知）。
  对极几何的核心约束是：图像 A 中的一个点，其在图像 B 中的对应点一定位于一条被称为“极线 (epipolar line)”的直线上。几何验证就是要检查匹配点是否满足这种“点线约束”。
多视几何关系：三台或更多相机一起拍摄时，也有类似的几何约束，这种约束叫多视几何关系。
投影模型：3D 点在相机里的成像叫投影模型。依据相机模型，能用多张照片反推出该 3D 点在真实空间中的位置（叫三角化）。

单应性 (Homography, H)：当以下两种条件之一满足时，图像间的变换可以用一个单应矩阵H来描述：

相机只进行了纯旋转，没有移动（例如，站在原地拍摄全景照片）。
场景本身是一个平面（例如，拍摄一张海报）。

2. 常见方法

SfM, Structure-from-Motion：先从两张图开始恢复相机和场景，然后不断加入新图片，更新三维点和相机位姿，并用全局优化（Bundle Adjustment）让结果更精确。
MVS, Multi-View Stereo：在已知相机位置的前提下，对多张照片进行像素级匹配，估计每个像素的深度，再把深度图合成完整的 3D 模型。
动态场景处理：如果场景中有多个物体在动，需要先把它们分开处理，并且跟踪它们的运动轨迹。

3. 常用工具和技巧

RANSAC：用来从带噪声的匹配点中找出正确的几何关系。
李群与李代数：一种方便表示和优化旋转、位移的方法。
优化方法：从初始解出发，通过迭代让三维重建和相机姿态更精确。

4. 研究热点

大规模重建：在百万级图片或点云上进行优化，需要分布式计算和分层优化。
深度学习结合：用神经网络直接预测相机位置或 3D 场景（如 NeRF）。
动态场景与事件相机：解决高速运动或低光条件下的重建。
实时性：SLAM、GPU 加速等，让算法能边拍边建模。

Graph View

1. 多视角几何（Multi-View Geometry）
2. 多视角立体重建（Multi-View Stereo / Structure-from-Motion）
1. 核心概念
2. 常见方法
3. 常用工具和技巧
4. 研究热点

Backlinks

3D Reconstruction

GitHub