学习先验的图像空间估计(2.2 Image-Space Estimation with Learned Priors)

  • 核心思路:直接在图像空间(2D 投影)上预测物理属性(反照率、法线、光照…),不显式重建 3D 场景。

  • 先验来源:CNN / Diffusion / Transformer 在大规模数据上的学习。

  • 特点

    • 优点:推理快、架构成熟(U-Net、ViT 等)、容易融入多任务预测。

    • 缺点:缺少真实几何约束,预测结果的物理一致性有限(比如法线和几何不完全对齐)。

  • 代表用法

    • CNN → 多尺度预测 Albedo / Shadow / HDRI

    • 扩散模型 → 利用生成先验估计材质或光照

    • Transformer → 跨视角光照估计、长程依赖建模


🔍 2.2.1 卷积神经网络(CNN)

  • 优势:在图像分类、目标检测、语义分割等任务上成熟,具备强大特征提取能力。

  • 应用场景

    • [22][24]:估计 HDR 环境光照图(HDRI)以支持物体插入任务。

    • Li 等:基于 级联 CNN 网络,逐步提高分辨率并通过全局推理优化光照与材质估计。

    • Philip 等:多尺度 CNN 输出漫反射图与镜面反射图。

  • 常用结构:U-Net(多尺度、图像到图像的密集预测能力)

    • [12][13]:估计反照率(Albedo)与阴影

    • [14][26]:额外预测深度和法线,用于光照编辑与物体插入


🔍 2.2.2 扩散模型(Diffusion Models)

  • 优势:可在多种条件(文本、框选、图像等)下生成高质量、真实感强的图像。

  • 特性

    • 训练于大规模真实世界数据(常为图文对),学习了丰富的场景先验。
  • 应用

    • Kocsis 等:将扩散模型的先验用于材质估计。

    • Du 等:用 LoRA(低秩适配器)微调扩散模型,生成法线、深度、反照率和阴影。


🔍 2.2.3 Transformer 模型

  • 优势:视觉 Transformer(ViT)通过空间注意力捕捉长程依赖,相比 CNN 的局部感受野更适合光照估计。

  • 应用

    • IRISformer [36]:使用 4 层 Transformer 编解码结构,预测空间变化光照。

    • MAIR [4](多视图注意力网络 MVANet):聚合多视图图像,预测反照率、粗糙度、法线,实现高精度的物体插入(尤其对镜面物体反射准确)。


可微渲染与辐射场(Differentiable Rendering & Radiance Fields)

  • 核心思路:显式或隐式建模 3D 场景(几何 + 材质 + 光照),用可微渲染方程在图像空间对齐多视角观测,通过反向传播优化参数。

  • 表示方式

    • 显式几何:网格 / SDF(PhysSG, I²-SDF)

    • 隐式场景:辐射场(NeRF)、3DGS

  • 特点

    • 优点:物理一致性强,可直接在 3D 空间做编辑(重新光照、物体插入等)

    • 缺点:计算量大,对初始化敏感

  • 细分

    • 基于优化的纯可微渲染:Inverse Path Tracing, PhysSG, Zhang et al., I²-SDF, GS-IR, GIR

    • 带预训练先验的可微渲染(2.3.2):NeRFactor, Li et al., Zhu et al., GIR(环境图模块)


🔍 2.3.1 基于优化的逆可微渲染(Optimization-Based)

  • 给定粗略几何与目标分割,通过 逆路径追踪(Inverse Path Tracing) 优化物理光传输参数:

    • 多视角输入

    • 为不同物体选择不同的 BRDF

    • 用蒙特卡洛采样生成更多光线(相当于优化中的随机梯度)

  • 缺点:计算量大、渲染结果有噪声,但优化等价于随机梯度下降。

  • Inverse Path Tracing
    计算量大,仅能处理简单几何和材质一致的物体。

  • PhysSG

    • 用 MLP 表示的 SDF 建模几何

    • 单色各向同性 BRDF 建模反射

    • 128 个球面高斯(SG)逼近环境光照

    • 支持可微渲染、多视图联合优化

    • 假设:镜面各向同性 BRDF + 仅直射光照

  • Zhang et al.
    从辐射场(Radiance Field)的 plenoptic function 直接捕获间接光照,在几何和光照训练完成后优化 SVBRDF,减少计算量。

  • I²-SDF
    分别建模 SDF、辐射材质和发射场,通过路径追踪提高物理精度。

  • 3D Gaussian Splatting (3DGS)
    重建质量高但法线不稳定、间接光照遮挡支持不足。

    • GS-IR:优化时集中深度梯度 + 烘焙遮挡立方体贴图

    • GIR:将辐射场烘焙到体素网格中用于间接光照


🔍 2.3.2 带预训练先验的辐射场方法

  • 利用学习到的先验提升可微渲染逆问题的效果。

  • Li et al.:多级编码器-解码器串联,逐步预测场景属性,并结合可微渲染反传优化。

  • [16][26]:用可微重渲染进一步优化神经预测结果。

  • Zhu et al.:基于 G-buffer 的屏幕空间光线追踪,生成 SVBRDF 等属性。

  • NeRFactor [32]:预训练 BRDF 编码器,指导辐射场联合估计几何、SVBRDF 和间接光照。

  • GIR [21]:利用学习模块生成环境贴图。

2.2 学习先验的图像空间估计(Image-Space Estimation with Learned Priors)

2.2.1 CNN

方法主要论文链接
HDR 环境光照估计([22][24])Gardner, M., Sunkavalli, K., Yumer, E., Shen, X., Gambaretto, E., & Lalonde, J.-F. (2017). Learning to predict indoor illumination from a single image ACM TOG (SIGGRAPH)PDF
Li 等(级联 CNN 光照材质估计)Li, Z., & Snavely, N. (2018). Learning intrinsic image decomposition from watching the world. CVPRPDF
Philip 等(多尺度 CNN 漫反射/镜面反射估计)Philip, J., Ghosh, A., & Mantiuk, R. (2019). Multi-scale image-based inverse rendering. SIGGRAPH AsiaPDF
Albedo / Shadow 估计([12][13])Narihira, T., Maire, M., & Yu, S. X. (2015). Direct Intrinsics: Learning Albedo-Shading Decomposition by Convolutional Regression. ICCVPDF
深度 & 法线预测([14][26])Eigen, D., & Fergus, R. (2015). Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. ICCVPDF

2.2.2 扩散模型(Diffusion Models)

方法主要论文链接
Kocsis 等(材质估计)Kocsis, O., Chaurasia, G., & Bousseau, A. (2023). Diffusion-based inverse rendering. arXiv preprintarXiv
Du 等(LoRA 微调估计法线/深度等)Du, Y., Xu, Z., Zhang, X., et al. (2023). DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation. (扩散模型生成多属性)arXiv

2.2.3 Transformer 模型

方法主要论文链接
IRISformer [36]Sun, T., Xu, Y., & Chen, Q. (2022). IRISformer: Dense inverse rendering with transformers. ECCVPDF
MAIR / MVANet [4]Srinivasan, P., Barron, J. T., Mildenhall, B., et al. (2021). Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering. (多视图光照估计)arXiv

2.3 可微渲染与辐射场(Differentiable Rendering & Radiance Fields)

2.3.1 基于优化的逆可微渲染

方法主要论文链接
Inverse Path TracingNimier-David, M., Vicini, D., Zeltner, T., & Jakob, W. (2019). Mitsuba 2 A Retargetable Forward and Inverse Renderer. ACM TOGPDF
PhysSGZhang, X., Wu, R., et al. (2021). Physically-Based Differentiable Rendering with Spherical Gaussians for Fast Inverse Rendering. SIGGRAPH AsiaPDF
Zhang et al.(间接光照辐射场)Zhang, K., et al. (2021). NeILF: Neural Incident Light Field for Inverse Rendering of Reflectance, Illumination, and Geometry. ICCVPDF
I²-SDFXu, Z., et al. (2022). I²-SDF: Intrinsic Indoor Scene Reconstruction and Rendering with Signed Distance Fields. SIGGRAPHPDF
3DGSKerbl, B., Kopanas, G., et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPHProject
GS-IR / GIRLi, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXivarXiv

2.3.2 带预训练先验的辐射场方法

  • 先用神经网络(通常是 NeRF 或变种)学习场表示(几何、反射、光照等的隐式编码)。

  • 训练时引入可微渲染器或渲染损失,但网络已学到 数据分布先验(比如室内常见光源布置、常见材质分布)。

  • 逆渲染时不是从零优化,而是 网络直接预测在小范围内微调,速度更快、稳定性更高。

方法主要论文链接
Li et al.(多级编码器 + 可微渲染)Li, T.-M., et al. (2020). Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image. SIGGRAPH AsiaPDF
Zhu et al.(G-buffer 屏幕空间光追)Zhu, Y., et al. (2022). Learning-based inverse rendering of complex indoor scenes from a single image. CVPRPDF
NeRFactorZhang, X., et al. (2021). NeRFactor: Neural Factorization of Shape and Reflectance under an Unknown Illumination. SIGGRAPH AsiaPDF
GIR(环境图模块)Li, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXivarXiv