学习先验的图像空间估计（2.2 Image-Space Estimation with Learned Priors）

核心思路：直接在图像空间（2D 投影）上预测物理属性（反照率、法线、光照…），不显式重建 3D 场景。
先验来源：CNN / Diffusion / Transformer 在大规模数据上的学习。
特点：
- 优点：推理快、架构成熟（U-Net、ViT 等）、容易融入多任务预测。
- 缺点：缺少真实几何约束，预测结果的物理一致性有限（比如法线和几何不完全对齐）。
代表用法：
- CNN → 多尺度预测 Albedo / Shadow / HDRI
- 扩散模型 → 利用生成先验估计材质或光照
- Transformer → 跨视角光照估计、长程依赖建模

🔍 2.2.1 卷积神经网络（CNN）

优势：在图像分类、目标检测、语义分割等任务上成熟，具备强大特征提取能力。
应用场景：
- [22][24]：估计 HDR 环境光照图（HDRI）以支持物体插入任务。
- Li 等：基于 级联 CNN 网络，逐步提高分辨率并通过全局推理优化光照与材质估计。
- Philip 等：多尺度 CNN 输出漫反射图与镜面反射图。
常用结构：U-Net（多尺度、图像到图像的密集预测能力）
- [12][13]：估计反照率（Albedo）与阴影
- [14][26]：额外预测深度和法线，用于光照编辑与物体插入

🔍 2.2.2 扩散模型（Diffusion Models）

优势：可在多种条件（文本、框选、图像等）下生成高质量、真实感强的图像。
特性：
- 训练于大规模真实世界数据（常为图文对），学习了丰富的场景先验。
应用：
- Kocsis 等：将扩散模型的先验用于材质估计。
- Du 等：用 LoRA（低秩适配器）微调扩散模型，生成法线、深度、反照率和阴影。

🔍 2.2.3 Transformer 模型

优势：视觉 Transformer（ViT）通过空间注意力捕捉长程依赖，相比 CNN 的局部感受野更适合光照估计。
应用：
- IRISformer [36]：使用 4 层 Transformer 编解码结构，预测空间变化光照。
- MAIR [4]（多视图注意力网络 MVANet）：聚合多视图图像，预测反照率、粗糙度、法线，实现高精度的物体插入（尤其对镜面物体反射准确）。

可微渲染与辐射场（Differentiable Rendering & Radiance Fields）

核心思路：显式或隐式建模 3D 场景（几何 + 材质 + 光照），用可微渲染方程在图像空间对齐多视角观测，通过反向传播优化参数。
表示方式：
- 显式几何：网格 / SDF（PhysSG, I²-SDF）
- 隐式场景：辐射场（NeRF）、3DGS
特点：
- 优点：物理一致性强，可直接在 3D 空间做编辑（重新光照、物体插入等）
- 缺点：计算量大，对初始化敏感
细分：
- 基于优化的纯可微渲染：Inverse Path Tracing, PhysSG, Zhang et al., I²-SDF, GS-IR, GIR
- 带预训练先验的可微渲染（2.3.2）：NeRFactor, Li et al., Zhu et al., GIR（环境图模块）

🔍 2.3.1 基于优化的逆可微渲染（Optimization-Based）

给定粗略几何与目标分割，通过 逆路径追踪（Inverse Path Tracing） 优化物理光传输参数：
- 多视角输入
- 为不同物体选择不同的 BRDF
- 用蒙特卡洛采样生成更多光线（相当于优化中的随机梯度）
缺点：计算量大、渲染结果有噪声，但优化等价于随机梯度下降。
Inverse Path Tracing
计算量大，仅能处理简单几何和材质一致的物体。
PhysSG
- 用 MLP 表示的 SDF 建模几何
- 单色各向同性 BRDF 建模反射
- 128 个球面高斯（SG）逼近环境光照
- 支持可微渲染、多视图联合优化
- 假设：镜面各向同性 BRDF + 仅直射光照
Zhang et al.
从辐射场（Radiance Field）的 plenoptic function 直接捕获间接光照，在几何和光照训练完成后优化 SVBRDF，减少计算量。
I²-SDF
分别建模 SDF、辐射材质和发射场，通过路径追踪提高物理精度。
3D Gaussian Splatting (3DGS)
重建质量高但法线不稳定、间接光照遮挡支持不足。
- GS-IR：优化时集中深度梯度 + 烘焙遮挡立方体贴图
- GIR：将辐射场烘焙到体素网格中用于间接光照

🔍 2.3.2 带预训练先验的辐射场方法

利用学习到的先验提升可微渲染逆问题的效果。
Li et al.：多级编码器-解码器串联，逐步预测场景属性，并结合可微渲染反传优化。
[16][26]：用可微重渲染进一步优化神经预测结果。
Zhu et al.：基于 G-buffer 的屏幕空间光线追踪，生成 SVBRDF 等属性。
NeRFactor [32]：预训练 BRDF 编码器，指导辐射场联合估计几何、SVBRDF 和间接光照。
GIR [21]：利用学习模块生成环境贴图。

2.2 学习先验的图像空间估计（Image-Space Estimation with Learned Priors）

2.2.1 CNN

方法	主要论文	链接
HDR 环境光照估计（[22][24]）	Gardner, M., Sunkavalli, K., Yumer, E., Shen, X., Gambaretto, E., & Lalonde, J.-F. (2017). Learning to predict indoor illumination from a single image ACM TOG (SIGGRAPH)	PDF
Li 等（级联 CNN 光照材质估计）	Li, Z., & Snavely, N. (2018). Learning intrinsic image decomposition from watching the world. CVPR	PDF
Philip 等（多尺度 CNN 漫反射/镜面反射估计）	Philip, J., Ghosh, A., & Mantiuk, R. (2019). Multi-scale image-based inverse rendering. SIGGRAPH Asia	PDF
Albedo / Shadow 估计（[12][13]）	Narihira, T., Maire, M., & Yu, S. X. (2015). Direct Intrinsics: Learning Albedo-Shading Decomposition by Convolutional Regression. ICCV	PDF
深度 & 法线预测（[14][26]）	Eigen, D., & Fergus, R. (2015). Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. ICCV	PDF

2.2.2 扩散模型（Diffusion Models）

方法	主要论文	链接
Kocsis 等（材质估计）	Kocsis, O., Chaurasia, G., & Bousseau, A. (2023). Diffusion-based inverse rendering. arXiv preprint	arXiv
Du 等（LoRA 微调估计法线/深度等）	Du, Y., Xu, Z., Zhang, X., et al. (2023). DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation. (扩散模型生成多属性)	arXiv

2.2.3 Transformer 模型

方法	主要论文	链接
IRISformer [36]	Sun, T., Xu, Y., & Chen, Q. (2022). IRISformer: Dense inverse rendering with transformers. ECCV	PDF
MAIR / MVANet [4]	Srinivasan, P., Barron, J. T., Mildenhall, B., et al. (2021). Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering. (多视图光照估计)	arXiv

2.3 可微渲染与辐射场（Differentiable Rendering & Radiance Fields）

2.3.1 基于优化的逆可微渲染

方法	主要论文	链接
Inverse Path Tracing	Nimier-David, M., Vicini, D., Zeltner, T., & Jakob, W. (2019). Mitsuba 2 A Retargetable Forward and Inverse Renderer. ACM TOG	PDF
PhysSG	Zhang, X., Wu, R., et al. (2021). Physically-Based Differentiable Rendering with Spherical Gaussians for Fast Inverse Rendering. SIGGRAPH Asia	PDF
Zhang et al.（间接光照辐射场）	Zhang, K., et al. (2021). NeILF: Neural Incident Light Field for Inverse Rendering of Reflectance, Illumination, and Geometry. ICCV	PDF
I²-SDF	Xu, Z., et al. (2022). I²-SDF: Intrinsic Indoor Scene Reconstruction and Rendering with Signed Distance Fields. SIGGRAPH	PDF
3DGS	Kerbl, B., Kopanas, G., et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH	Project
GS-IR / GIR	Li, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXiv	arXiv

2.3.2 带预训练先验的辐射场方法

先用神经网络（通常是 NeRF 或变种）学习场表示（几何、反射、光照等的隐式编码）。
训练时引入可微渲染器或渲染损失，但网络已学到 数据分布先验（比如室内常见光源布置、常见材质分布）。
逆渲染时不是从零优化，而是 网络直接预测 或 在小范围内微调，速度更快、稳定性更高。

方法	主要论文	链接
Li et al.（多级编码器 + 可微渲染）	Li, T.-M., et al. (2020). Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image. SIGGRAPH Asia	PDF
Zhu et al.（G-buffer 屏幕空间光追）	Zhu, Y., et al. (2022). Learning-based inverse rendering of complex indoor scenes from a single image. CVPR	PDF
NeRFactor	Zhang, X., et al. (2021). NeRFactor: Neural Factorization of Shape and Reflectance under an Unknown Illumination. SIGGRAPH Asia	PDF
GIR（环境图模块）	Li, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXiv	arXiv

My Notes

Explorer

Hybrid Inverse Rendering Method

学习先验的图像空间估计（2.2 Image-Space Estimation with Learned Priors）

🔍 2.2.1 卷积神经网络（CNN）

🔍 2.2.2 扩散模型（Diffusion Models）

🔍 2.2.3 Transformer 模型

可微渲染与辐射场（Differentiable Rendering & Radiance Fields）

🔍 2.3.1 基于优化的逆可微渲染（Optimization-Based）

🔍 2.3.2 带预训练先验的辐射场方法

2.2 学习先验的图像空间估计（Image-Space Estimation with Learned Priors）

2.2.1 CNN

2.2.2 扩散模型（Diffusion Models）

2.2.3 Transformer 模型

2.3 可微渲染与辐射场（Differentiable Rendering & Radiance Fields）

2.3.1 基于优化的逆可微渲染

2.3.2 带预训练先验的辐射场方法

Graph View

Table of Contents

Backlinks