多视图几何是计算机视觉与摄影测量学的核心理论分支,旨在通过多个视角的图像观测,联合恢复三维场景结构及相机运动参数。其核心在于利用多视点间的几何约束关系(如极线约束、重投影一致性])构建数学优化问题,最终实现场景的三维重建与运动估计。
1. 多视角几何(Multi-View Geometry)
-
是一门理论学科/数学工具,研究相机投影模型、不同视角之间的几何约束。
-
核心内容:
-
相机模型(针孔模型、内外参)
-
两视图几何(基础矩阵 F、本质矩阵 E、极线约束)
-
多视图几何(三焦张量、投影一致性)
-
-
作用:提供了严格的数学框架,让我们知道不同照片之间的点应该满足什么几何关系。
2. 多视角立体重建(Multi-View Stereo / Structure-from-Motion)
-
是一个应用任务/工程方法,目标是用多张二维图像重建三维场景和相机运动。
-
它把 多视角几何的理论 作为基础,用于建立优化问题:
-
用极线约束指导特征匹配。
-
用重投影误差作为优化目标。
-
用三角测量恢复 3D 点坐标。
-
-
常见实现:SfM、MVS、COLMAP pipeline。
1. 核心概念
-
对极几何 (Epipolar Geometry):相机在三维空间中自由移动并拍摄一个非平面的场景。
-
基础矩阵 (Fundamental Matrix,
):用于未标定的相机(即我们不知道相机的焦距等内参)。
-
本质矩阵 (Essential Matrix,
):用于已标定的相机(相机内参已知)。
对极几何的核心约束是:图像 A 中的一个点,其在图像 B 中的对应点一定位于一条被称为“极线 (epipolar line)”的直线上。几何验证就是要检查匹配点是否满足这种“点线约束”。
-
-
多视几何关系:三台或更多相机一起拍摄时,也有类似的几何约束,这种约束叫多视几何关系。
-
投影模型:3D 点在相机里的成像叫投影模型。依据相机模型,能用多张照片反推出该 3D 点在真实空间中的位置(叫三角化)。
单应性 (Homography, H):当以下两种条件之一满足时,图像间的变换可以用一个单应矩阵H来描述:
- 相机只进行了纯旋转,没有移动(例如,站在原地拍摄全景照片)。
- 场景本身是一个平面(例如,拍摄一张海报)。
2. 常见方法
-
SfM, Structure-from-Motion:先从两张图开始恢复相机和场景,然后不断加入新图片,更新三维点和相机位姿,并用全局优化(Bundle Adjustment)让结果更精确。
-
MVS, Multi-View Stereo:在已知相机位置的前提下,对多张照片进行像素级匹配,估计每个像素的深度,再把深度图合成完整的 3D 模型。
-
动态场景处理:如果场景中有多个物体在动,需要先把它们分开处理,并且跟踪它们的运动轨迹。
3. 常用工具和技巧
-
RANSAC:用来从带噪声的匹配点中找出正确的几何关系。
-
李群与李代数:一种方便表示和优化旋转、位移的方法。
-
优化方法:从初始解出发,通过迭代让三维重建和相机姿态更精确。
4. 研究热点
-
大规模重建:在百万级图片或点云上进行优化,需要分布式计算和分层优化。
-
深度学习结合:用神经网络直接预测相机位置或 3D 场景(如 NeRF)。
-
动态场景与事件相机:解决高速运动或低光条件下的重建。
-
实时性:SLAM、GPU 加速等,让算法能边拍边建模。