Site Unreachable

多视图几何是计算机视觉与摄影测量学的核心理论分支,旨在通过多个视角的图像观测,联合恢复三维场景结构及相机运动参数。其核心在于利用多视点间的几何约束关系(如极线约束重投影一致性])构建数学优化问题,最终实现场景的三维重建与运动估计。

1. 多视角几何(Multi-View Geometry)

  • 是一门理论学科/数学工具,研究相机投影模型、不同视角之间的几何约束。

  • 核心内容:

    • 相机模型(针孔模型、内外参)

    • 两视图几何(基础矩阵 F、本质矩阵 E、极线约束)

    • 多视图几何(三焦张量、投影一致性)

  • 作用:提供了严格的数学框架,让我们知道不同照片之间的点应该满足什么几何关系。

2. 多视角立体重建(Multi-View Stereo / Structure-from-Motion)

  • 是一个应用任务/工程方法,目标是用多张二维图像重建三维场景和相机运动

  • 它把 多视角几何的理论 作为基础,用于建立优化问题:

    • 用极线约束指导特征匹配。

    • 用重投影误差作为优化目标。

    • 用三角测量恢复 3D 点坐标。

  • 常见实现:SfM、MVS、COLMAP pipeline。

1. 核心概念

  • 对极几何 (Epipolar Geometry):相机在三维空间中自由移动并拍摄一个非平面的场景。

    • 基础矩阵 (Fundamental Matrix,

      F

      ):用于未标定的相机(即我们不知道相机的焦距等内参)。

    • 本质矩阵 (Essential Matrix,

      E

      ):用于已标定的相机(相机内参已知)。
      对极几何的核心约束是:图像 A 中的一个点,其在图像 B 中的对应点一定位于一条被称为“极线 (epipolar line)”的直线上。几何验证就是要检查匹配点是否满足这种“点线约束”。

  • 多视几何关系:三台或更多相机一起拍摄时,也有类似的几何约束,这种约束叫多视几何关系。

  • 投影模型:3D 点在相机里的成像叫投影模型。依据相机模型,能用多张照片反推出该 3D 点在真实空间中的位置(叫三角化)。

单应性 (Homography, H):当以下两种条件之一满足时,图像间的变换可以用一个单应矩阵H来描述:

  • 相机只进行了纯旋转,没有移动(例如,站在原地拍摄全景照片)。
  • 场景本身是一个平面(例如,拍摄一张海报)。

2. 常见方法

  • SfM, Structure-from-Motion:先从两张图开始恢复相机和场景,然后不断加入新图片,更新三维点和相机位姿,并用全局优化(Bundle Adjustment)让结果更精确。

  • MVS, Multi-View Stereo:在已知相机位置的前提下,对多张照片进行像素级匹配,估计每个像素的深度,再把深度图合成完整的 3D 模型。

  • 动态场景处理:如果场景中有多个物体在动,需要先把它们分开处理,并且跟踪它们的运动轨迹。


3. 常用工具和技巧

  • RANSAC:用来从带噪声的匹配点中找出正确的几何关系。

  • 李群与李代数:一种方便表示和优化旋转、位移的方法。

  • 优化方法:从初始解出发,通过迭代让三维重建和相机姿态更精确。


4. 研究热点

  • 大规模重建:在百万级图片或点云上进行优化,需要分布式计算和分层优化。

  • 深度学习结合:用神经网络直接预测相机位置或 3D 场景(如 NeRF)。

  • 动态场景与事件相机:解决高速运动或低光条件下的重建。

  • 实时性:SLAM、GPU 加速等,让算法能边拍边建模。