SfM, Structure-from-Motion + MVS, Multi-View Stereo SfM 负责求解内外参与稀疏结构;MVS 在此基础上做逐像素深度估计并融合为高质量的稠密模型。
相关优化
DeepSfM(DeepSFM: Structure from Motion via Deep Bundle Adjustment)
核心思路: DeepSfM 是一种将传统 束调整(Bundle Adjustment, BA)思想引入深度网络的 SfM 方法。它采用物理驱动的架构,包含针对深度和相机姿态的两个基于 三维代价体(cost volume) 的子网络,交替迭代优化结构(深度)和运动(相机位姿)weixk2015.github.io。这种设计使网络同时学习场景的 深度 和 相机运动,类似传统 SfM 中的 BA 全局优化过程。 创新点: 该方法突破了以往深度SfM假定已知精确相机位姿的局限,通过在网络中显式加入 3D 几何约束(如代价体)实现 深度与位姿的联合估计weixk2015.github.io。深度分支和位姿分支的互动优化,将经典 BA 的约束与深度学习的表示能力结合weixk2015.github.io。 优点: 实验表明 DeepSfM 在 深度和相机姿态估计 上均达到当时的最新水平,对输入图像数量较少或初始位姿存在噪声的情况有较强鲁棒性weixk2015.github.io。相比纯深度学习方法,它利用几何约束提高了精度和稳定性。 缺点: 引入 BA 优化使模型结构较复杂,推理开销较大;同时需要在网络中模拟优化过程,训练和调参难度较高。由于使用学习方法,可能对训练数据分布有一定依赖,在极端未知场景下泛化能力有限。 适用场景: 适合用于对精度要求高且图像数量有限的重建任务,可在传统 SfM 难以收敛的场景中提供更鲁棒的解,也为将深度学习融入 SfM 提供了新思路。 发表时间与论文链接: 2020 年,ECCV 2020 (Oral)weixk2015.github.io。论文提供了代码实现,可在作者主页及论文中获取weixk2015.github.io。
SuperGlue(特征匹配 GNN)
核心思路: SuperGlue 是一种用于图像特征匹配的深度网络,被称为“可学习的中端匹配”。它利用 图神经网络(GNN) 和 注意力机制,在给定两幅图像的局部特征点集合后,通过可微分的最优传输框架求解二者的特征对应关系,同时自动排除无法匹配的点arxiv.org。网络以两幅图像的关键点及其初始描述为节点构建图,在 GNN 中执行自注意力(处理单图特征内关系)和交叉注意力(处理两图间关系)来融合上下文信息openaccess.thecvf.com。最终通过求解最优匹配使得特征对齐。 创新点: 与传统基于最近邻+RANSAC的匹配策略不同,SuperGlue 将匹配过程学习化:通过端到端训练学习几何变换先验和3D世界的约束,使匹配过程能够充分利用特征点间的全局上下文psarlin.com。其差分优化传输方案保证匹配过程可融入网络训练。 优点: SuperGlue 显著提高了宽基线、光照变化等艰难条件下的匹配质量,在室内外数据集的相机姿态估计任务上达到当时最佳性能psarlin.com。由于利用上下文关系,它比手工策略更鲁棒,可有效剔除误匹配点。速度上在现代GPU上可实时运行,已被广泛用于 SfM 和 SLAM 系统中arxiv.org。官方实现和预训练模型已开源,方便集成。 缺点: 由于模型较大且使用注意力机制,对计算资源要求较高,在CPU上难以实时。此外作为学习方法,需要训练数据支撑,对于训练数据分布以外的场景,效果可能下降。匹配仍依赖前端特征质量,因此对光照极端变化等情况仍有一定挑战。 适用场景: 适用于对匹配鲁棒性要求高的场景,如大视角差的照片匹配、难环境下的定位和重建。常作为 COLMAP 等SfM系统中替换传统特征匹配模块的中端,提高整体重建可靠性。 发表时间与论文链接: 2020 年,CVPR 2020 (Oral)arxiv.org https%3A%2F%2Fdoi.org%2F10.48550%2FarXiv.1911.11763)。论文题为 “SuperGlue: Learning Feature Matching with Graph Neural Networks”arxiv.org。
LoFTR(LoFTR: Detector-Free Local Feature TRansformer)
核心思路: LoFTR 是一种无特征点检测(detector-free)的图像局部特征匹配方法。它摒弃了传统“检测-描述-匹配”的流水线,转而采用 Transformer 架构直接在两张图像之间建立稠密像素级匹配。具体而言,LoFTR 首先提取图像对的多尺度特征金字塔,然后在粗尺度通过跨图像的自注意力和交叉注意力模块计算两幅图像的全局相关性,建立像素级粗匹配,再在细尺度局部窗口内精细优化匹配位置zju3dv.github.io[zju3dv.github.io](https://zju3dv.github.io/loftr/#:~:text=LoFTR has four components%3A (\textbf,neighbor criteria%2C yielding the coarse)。这种 coarse-to-fine 策略确保匹配既全局一致又精细准确。 创新点: 与基于代价体搜索稠密匹配的传统方法不同zju3dv.github.io,LoFTR 利用 Transformer 的全局感受野使每个像素特征都融合了另一幅图像的信息zju3dv.github.io。因此即使在 无纹理、运动模糊或重复图案 等传统方法无法可靠检测特征点的区域,LoFTR 也能建立正确匹配zju3dv.github.io。它开创了不依赖显式特征点检测、直接特征融合匹配的思路,大幅提升了匹配密度和鲁棒性。 优点: LoFTR 能输出高质量的半稠密匹配,在室内和室外数据集上性能超越先前最佳方法一大截zju3dv.github.io。尤其在低纹理或重复图案区域,LoFTR 的匹配显著多于传统方法,有利于后续重建的完整性zju3dv.github.io。它在公开的视觉定位基准上名列前茅zju3dv.github.io。由于省去了特征检测步骤,对于纹理匮乏场景效果尤为突出。 缺点: LoFTR 采用 Transformer 计算全局相关,内存和算力开销较大,匹配过程相对耗时,实时性不如基于稀疏特征的方法。模型需要大量具有匹配标注的数据训练,训练成本高。此外对于极端视角变化场景,尽管LoFTR有全局视野,但仍可能出现误匹配,需要配合后验几何验证。 适用场景: 适用于需要高匹配密度和鲁棒性的场景,例如低纹理环境下的三维重建、难场景下的定位以及需要特征高覆盖率的应用。尤其在传统特征点检测效果不佳的条件下,LoFTR 能提供显著优势。 发表时间与论文链接: 2021 年,CVPR 2021。arxiv.org论文题目 “LoFTR: Detector-Free Local Feature Matching with Transformers”arxiv.org。官方实现开源在 GitHub (ZJU3DV LoFTR 项目页面)。
NeRF(Neural Radiance Fields,神经辐射场)
核心思路: NeRF 提出了一种新颖的场景表示方式:使用一个多层感知机(MLP)网络编码三维场景的密度和颜色。网络以点的连续五维坐标为输入(空间位置 (x,y,z) 加视角方向 (\theta,\phi)),输出该点处的体密度和视角相关的辐射值(颜色)arxiv.org。给定一组有已知相机参数的图片,NeRF 通过在每条相机光线上采样一系列点、用 MLP 预测其颜色和密度,再用经典体渲染方程进行积分投影来合成该视点的像素颜色arxiv.org。由于体渲染过程是完全可微的,NeRF 可以通过比较合成图像与真实图像逐像素的差异来反向传播,优化网络参数,从而拟合出整个场景的辐射场arxiv.org。 创新点: NeRF 结合了隐式神经表示与体积渲染的优势,实现了无需明确几何重建即可渲染新视角图像的能力arxiv.org。论文提出对输入坐标使用位置编码(Positional Encoding)将其映射到高维空间,以让 MLP 学习表达高频细节liuxiao.org。此外通过分层采样策略,将采样资源集中于贡献大的区域,从而提高渲染效率和效果liuxiao.org。这些技术使一个简单的全连接网络能够表示复杂场景的细节和视角依赖效果(如反射高光)liuxiao.org。NeRF 在当时首次实现了利用纯神经网络端到端优化出逼真的新视角合成结果。 优点: 给定足够的输入视图,NeRF 可以生成逼近真实的 新视角图像,捕捉细腻的光照和几何细节arxiv.org。与传统先重建后渲染的方法相比,NeRF 模型连续且内存占用小(无需显式存储点云/网格),渲染结果质量远超同时期其他神经渲染方法arxiv.org。NeRF 的提出在计算机视觉和图形学领域引发了极大关注,开创了神经辐射场这一新方向,后续众多工作在其基础上改进速度、扩展应用。 缺点: 训练开销大且每个场景需单独训练:原始 NeRF 在一场景上训练往往需数小时,要求数十张有覆盖充分的图像输入。实时渲染和大场景扩展受限于其体渲染采样的高计算量。此外,NeRF 依赖输入图像的相机姿态已知(通常需借助 COLMAP 等预先估计),对动态场景也无法直接处理(假设场景静态)。早期 NeRF 生成的模型缺乏显式几何,很难直接提取3D网格。 适用场景: 适用于静态场景的新视角合成,例如小规模场景的三维照片重建、自由视角视频生成等。在文物文档、影视特效等需要高逼真度视角合成的领域,NeRF 提供了一种有效方案。不过如果需要实时性或支持动态变化,需要借助后续改进模型。 发表时间与论文链接: 2020 年,ECCV 2020 (Oral,最佳论文提名)arxiv.orgarxiv.org。论文题目 “NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis”arxiv.org。官方项目提供了演示视频和代码arxiv.org。
BA-NeRF(Bundle-Adjusting Neural Radiance Fields,也称 BARF)
核心思路: BA-NeRF 将传统 捆绑调整(BA) 优化引入 NeRF 的训练过程中,解决 NeRF 依赖精准相机位姿的局限。它针对输入图像的初始相机位姿不精确甚至未知的情况,与 NeRF 场景表示的学习同步优化相机参数ar5iv.labs.arxiv.org。核心思想是借鉴经典 BA 的“粗到细”配准策略:在 NeRF 中逐步增加位置编码的频率分量,从低频开始训练,使网络先拟合场景的大致形状和相机姿态,再逐步引入高频细节避免早期陷入局部最优ar5iv.labs.arxiv.org and potential applications)。通过这种逐步优化,BA-NeRF 在训练 NeRF 表示的同时迭代更新相机姿态,实现重建和配准的联合(一个“鸡和蛋”问题的联合求解)ar5iv.labs.arxiv.org。 创新点: 作者建立了 NeRF 与经典图像配准的理论联系,发现直接对 NeRF 输入使用高频位置编码会使姿态优化容易收敛到错误结果ar5iv.labs.arxiv.org and potential applications)。因此提出渐进式位置编码策略,实现了 NeRF 表示学习与相机注册的协同优化ar5iv.labs.arxiv.org。BA-NeRF 可以被看作一种光度 BA(以重投影像素误差为目标)在神经隐式表示上的拓展,不需要特征匹配作为中介ar5iv.labs.arxiv.org。它首次展示了从随机初始化开始同时求解场景辐射场和未知相机姿态的可行性ar5iv.labs.arxiv.org and potential applications)。 优点: BA-NeRF 能从有噪声甚至未知的初始位姿出发,成功恢复高保真的场景表示和正确的相机姿态ar5iv.labs.arxiv.org and potential applications)。实验表明即使初始相机位姿存在较大偏差,该方法仍能通过联合优化 纠正相机外参 并得到接近真实的场景重建ar5iv.labs.arxiv.org and potential applications)。这使得 NeRF 可应用于无外部定位设备的场景,打开了将 NeRF 用于 SLAM、视频序列定位和大规模三维重建的新可能ar5iv.labs.arxiv.org and potential applications)。相比先用COLMAP定姿态再训练NeRF,BA-NeRF提供了一体化解决方案。 缺点: 与标准 NeRF 相比,BA-NeRF 优化参数更多(需估计相机位姿),训练过程更复杂且耗时。其收敛依赖逐步增加频率的调度策略,可能对不同数据集需要调参。对于纯旋转摄影等欠约束情况,仍可能存在歧义(因为没有平移视差很难优化尺度)。此外在动态场景或极少视角情况下,姿态和辐射场的联合优化可能难以收敛。 适用场景: 适合用于缺乏精确相机姿态信息的图像集合重建,例如无人机随航拍摄或网络爬取图像的场景。在这些场景下 BA-NeRF 可同步估计相机轨迹与场景,高效构建 NeRF 模型。也为将 NeRF 融入 SLAM、AR 等实时定位重建任务奠定了基础(尽管实时性能尚需进一步提升)。 发表时间与论文链接: 2021 年,ICCV 2021 (Oral)ar5iv.labs.arxiv.orgar5iv.labs.arxiv.org。论文简称 “BARF”,题目为 “Bundle-Adjusting Neural Radiance Fields”ar5iv.labs.arxiv.org。代码已开源于作者GitHub仓库。
GLOMAP(Global Structure-from-Motion Revisited)
核心思路: GLOMAP 是一种全局式的 SfM 管线,其目标是在保持精度的同时大幅提高重建速度和可扩展性。传统 SfM 通常采取 增量式(逐张注册相机)的策略以确保精度鲁棒,但处理海量图像时效率低;全局 SfM 则一次性解算所有相机位姿,速度快但过去鲁棒性不足arxiv.org。GLOMAP 重访全局 SfM 问题,引入了一套通用的新全局 SfM 系统。它的核心是在 视图图 (view graph) 上进行 全局姿态估计和结构优化:通过高精度的视图图初始化(包括视图图校准)、全局求解相机姿态位置(即全局定位),以及对初始结构的优化完善(结构优化)lpanaf.github.io。整个流程充分利用一阶优化方法和鲁棒估计技术,使其在大规模数据上既快又准。 创新点: GLOMAP 的主要贡献在于 全局位姿求解的新策略 和若干关键模块的改进。相比以往全局 SfM 方法,GLOMAP 在求解相机全局姿态时引入了更鲁棒的估计(如更稳健的初始化和误差分布假设),并在求解相机位置和场景点时联立优化(将场景点定位纳入全局解算,提高约束)lpanaf.github.io。此外,视图图构建阶段加入了自适应校准,更好地统一相机内参不一致的数据。结构优化阶段对初始三维点进行滤波和重优化,提升了最终重建精度。 优点: GLOMAP 的精度和鲁棒性已达到甚至超过目前最广泛使用的增量SfM系统 COLMAP,在很多数据集上重建质量与 COLMAP 相当或更优arxiv.org。同时,得益于全局求解和高效优化,重建速度要比 COLMAP 快几个数量级arxiv.org——例如处理数万张图像规模的数据,GLOMAP 仅需数小时而 COLMAP 可能需要数天lpanaf.github.io。这种又快又准的表现使其非常适合大规模三维重建和对实时性有要求的应用。GLOMAP 已开源,可方便研究者和工程师使用arxiv.org。 缺点: 作为全局方法,GLOMAP 对视图图的质量较为敏感:需要足够密集可靠的图像匹配才能保证全局求解的成功,否则仍可能发生少数相机姿态估计错误(官方报告精度接近COLMAP,但有时个别相机位姿会偏差较大reddit.com)。在高度非凸的场景(比如极少重叠或纯旋转集)下,全局方法可能陷入次优。此外 GLOMAP 的优势主要在大规模下体现,小规模数据上增量SfM已足够快且稳健,差异不明显。 适用场景: 非常适合 大规模照片集 的三维重建任务,例如互联网爬取的城市级数据集、数万张以上的航拍图集等。对于要求快速出结果的应用(如地图构建、文物数字化大场景扫描),GLOMAP 提供了高效方案。在需要反复重建的实验中,它也能大幅节省时间成本。 发表时间与论文链接: 2024 年,ECCV 2024(将发表)arxiv.org。“Global Structure-from-Motion Revisited”,作者来自苏黎世联邦理工和微软等arxiv.org。论文附带了开源代码arxiv.org。
FastMap(FastMap: Revisiting Structure from Motion through First-Order Optimization)
核心思路: FastMap 是一种强调速度和可扩展性的 SfM 新方法,属于全局SfM范畴。其主要理念是彻底使用一阶优化(如梯度下降)替代传统 BA 中耗时的二阶优化(高斯牛顿/LM 算法),以显著提升在大规模数据集上的运算效率arxiv.org。FastMap 针对传统SfM在匹配对极多时的瓶颈,找出了两个主要开销:其一是优化迭代中每步计算复杂度高,其二是实现上没有充分利用硬件加速arxiv.org。为此,FastMap 在算法和工程两方面优化:算法上采用一阶优化方法避免计算二阶导数矩阵,工程上利用 GPU 加速矩阵运算,将SfM问题转化为张量运算以发挥并行性能arxiv.org。总体流程仍包括特征匹配、姿态估计和BA等步骤,但每步都做了简化和加速。 创新点: FastMap 的创新在于重新设计SfM优化流程以追求极致速度。一方面,它证明了一阶优化方法(如动量梯度下降)在SfM全局问题上可以取得与二阶方法相近的收敛效果,但计算更快。另一方面,通过剖析 BA 的计算密集部分,作者将优化过程改写为GPU友好的形式。例如,将增量 BA 转化为并行更新,使计算复杂度大幅降低。FastMap 还处理了由于使用一阶法可能带来的收敛慢问题,确保在精度上不显著牺牲。 优点: FastMap 在大规模场景上相比 COLMAP 和近期的 GLOMAP 达到了数量级的加速:利用GPU后可比 COLMAP 提速最高约10倍arxiv.org。同时,它的相机位姿精度与这些传统方法相当,即显著提速的同时保持了高重建准确度arxiv.org。因为采用简洁的一阶优化,其实现相对简单,方便维护和扩展。对于上万张图像的重建任务,FastMap 能够在可接受时间内完成,使实时三维重建更进一步。 缺点: FastMap 完全依赖梯度下降等一阶法,可能在某些恶劣条件下收敛速度变慢或需要更多迭代才能达到同样精度。此外,目前的实现高度依赖 GPU,如果没有 GPU 加速,其速度优势将大打折扣。作为新近提出的方法,其鲁棒性和稳定性还有待更多不同数据集验证,尤其在非常稀疏的视图图或极端摄影条件下的表现需要观察。 适用场景: FastMap 适用于超大规模图像集的重建,以及对重建速度要求苛刻的场合。例如实时地图构建、线上照片集快速重建服务等。它也非常有利于在研究中进行大规模SfM实验,因为可以在较短时间内处理完过去难以实验的大数据集。 发表时间与论文链接: 2025 年(arXiv 预印本)arxiv.org。“FastMap: Revisiting Structure from Motion through First-Order Optimization”。该工作由 TTIC 等机构提出,当前论文和源码已在作者主页提供arxiv.org。
UW-Colmap(Underwater COLMAP,水下折射 SfM)
核心思路: UW-Colmap 指基于 COLMAP 框架扩展出的水下折射 SfM方法。水下摄影因相机加防水壳后存在折射效应,传统空气成像的针孔相机模型无法准确描述,往往只能用畸变参数近似arxiv.org。UW-Colmap(也称 Refractive COLMAP)通过在 SfM 管线的各个步骤中显式引入折射模型来处理水下成像几何arxiv.org。具体而言,它针对平板玻璃平面窗和球面圆顶窗两类相机壳,融入相应的折射投影模型,在特征重投影、三角化和 BA 优化中都考虑光线折射折弯,从而联合优化相机位姿、折射参数和三维结构arxiv.orgarxiv.org。这使得水下图像的 SfM 重建精度和鲁棒性大幅提升。 创新点: 尽管过去十年已有折射多视几何方面的研究成果,但缺乏一个完整可靠的开源实现[arxiv.org](https://arxiv.org/abs/2403.08640#:~:text=setups (for both%2C flat,ground truth validate that enabling)。UW-Colmap 的贡献在于将折射因素贯穿 SfM 全流程:包括初始化时的折射校正、基于折射的匹配几何验证、折射对应的 BA 实现等,形成了首个公开可用的折射 SfM系统arxiv.org。它验证了只要正确建模折射,相对于简单把水下相机当畸变针孔模型,并不会在精度或鲁棒性上有所损失arxiv.org。这一系统填补了水下三维重建工具的空白。 优点: UW-Colmap 能对水下大场景进行高精度重建。模拟和真实实验表明,引入折射模型后,其重建结果与在空气中拍摄相比精度基本相当arxiv.org。在一个包含近6000张水下图像的大型数据集上,UW-Colmap 展示了良好的重建能力,证明方法的实用性和可扩展性arxiv.org。该框架基于成熟的 COLMAP,因而继承了COLMAP许多优点,如稳健的增量重建策略和丰富的功能,同时显著提升了水下环境下的效果。代码已经开放,为水下考古、海洋生物测量等应用提供了有力工具arxiv.org。 缺点: 使用折射模型需要了解相机防水外壳的参数(例如平板玻璃厚度、折射率等),在现场应用中获取这些参数可能不便。如果参数有误,会影响重建质量。另外折射模型使计算变复杂,增加了BA优化变量,计算开销略有增加。对于轻微浑浊、光照不均的水下环境,虽然几何模型完善了,但成像质量问题仍会对匹配和重建造成挑战,需要配合去噪增强技术。 适用场景: 主要用于水下环境的三维重建,例如水下遗迹测绘、珊瑚礁生态建模等。一切需在水下进行 SfM 的场景,都应采用折射感知的方法以避免几何失真。UW-Colmap 提供了现成方案,也可用于科研验证折射多视几何算法。 发表时间与论文链接: 2024 年,IROS 2024arxiv.org。论文题目 “Refractive COLMAP: Refractive Structure-from-Motion Revisited”arxiv.org。作者提供了开源实现 (CAU Kiel 大学 GitLab) 供业界使用arxiv.org。
On-the-fly SfM(实时增量 SfM,“所拍即所得”SfM)
核心思路: On-the-fly SfM 是一种在线运行的增量 SfM 管线,实现“所拍即所得”的重建体验arxiv.org。传统 SfM 通常在采集完所有图像后离线处理,无法即时反馈重建质量arxiv.org。On-the-fly SfM 则在拍摄过程中实时执行 SfM:每当有新照片获取时,立刻将其与已有模型对齐,估计该图像的相机位姿和新增点云,并更新当前的部分重建arxiv.orgarxiv.org。如此一来,用户拍摄照片的同时即可获得累积的重建结果,用一句话概括就是“拍什么,立刻得什么”arxiv.org。它不要求图像按时间或空间连续(区别于SLAM必须视频帧序列),可以处理多摄像头、乱序拍摄的高分辨率照片集arxiv.orgarxiv.org。 创新点: On-the-fly SfM 为实现实时高效,提出了三项关键改进:首先,利用 学习型全局图像描述子 和 词典树 进行快速图像检索,仅在海量数据库中选出与新图像有重叠的候选进行匹配,加速配对过程arxiv.orgarxiv.org。其次,引入 最小二乘影像匹配 (LSM) 来细化关键点对应关系:对初始SIFT匹配进行亚像素精调,并剔除误匹配,从而减小累计误差,提高对极求解和姿态估计的可靠性arxiv.orgarxiv.org。第三,采用 分层加权的局部 BA 优化:以新图像为中心,根据图像连接关系构建分层邻接树,给予与新图像关联紧密的帧更大权重,在局部BA中重点优化,从而在保证精度的同时减少优化规模arxiv.orgarxiv.org。这三点结合,使系统能在保证精度下实现接近实时的增量重建。 优点: 该系统在多数据集上验证可鲁棒地实时注册图像,实现边采集边重建arxiv.org。与传统SfM相比,即时反馈能让用户发现遗漏视角并及时补拍,提升重建完整度。由于不要求帧间连续,它能融合来自多无人机、多相机的不同时空图像,具备更灵活的数据采集适应性yifeiyu225.github.io。实验显示其在每张千万像素图像仅耗数秒即可处理完毕,基本达到近实时性能。对于需要现场快速获取模型的应用(如灾后现场建模、考古勘探),该方法的价值尤为突出。 缺点: 虽然称为实时,但在高分辨率大场景下每张图像处理仍需几秒时间,真正视频帧级的实时(>30Hz)尚未达到。系统依赖 WiFi 实时传输图像和较强算力硬件,在野外使用受限于设备条件。与离线 SfM 相比,因只能利用当前累积的信息,重建精度可能略有下降,需要辅以全局 BA 做最终精化。此外实现上的复杂度增加(引入了图像检索和LSM模块),整个管线协同调度需要精细设计。 适用场景: 适用于现场三维重建、航拍测绘等需要边采集边看到结果的场景。例如无人机巡航拍摄一个大建筑物,On-the-fly SfM 可在飞行过程中持续给出部分重建,以指导拍摄覆盖;多团队协作采集遗址图像,也可实时合并成果检查进度。这种方法为传统SfM提供了一种在线模式的选择,在即时反馈和最终精度之间取得平衡。 发表时间与论文链接: 2024 年。最初版本发表于 ISPRS 学术会议sciencedirect.com(Zhan 等人,2024),后续有改进版本 (SfM on-the-fly v2) 引入 HNSW 图检索和多无人机支持yifeiyu225.github.ioyifeiyu225.github.io。论文“On-the-Fly SfM: What you capture is what you get”在 arXiv 提供了预印本arxiv.org。项目代码也已开源在作者的 GitHub 页面。