学习先验的图像空间估计(2.2 Image-Space Estimation with Learned Priors)
-
核心思路:直接在图像空间(2D 投影)上预测物理属性(反照率、法线、光照…),不显式重建 3D 场景。
-
先验来源:CNN / Diffusion / Transformer 在大规模数据上的学习。
-
特点:
-
优点:推理快、架构成熟(U-Net、ViT 等)、容易融入多任务预测。
-
缺点:缺少真实几何约束,预测结果的物理一致性有限(比如法线和几何不完全对齐)。
-
-
代表用法:
-
CNN → 多尺度预测 Albedo / Shadow / HDRI
-
扩散模型 → 利用生成先验估计材质或光照
-
Transformer → 跨视角光照估计、长程依赖建模
-
🔍 2.2.1 卷积神经网络(CNN)
-
优势:在图像分类、目标检测、语义分割等任务上成熟,具备强大特征提取能力。
-
应用场景:
-
[22][24]:估计 HDR 环境光照图(HDRI)以支持物体插入任务。
-
Li 等:基于 级联 CNN 网络,逐步提高分辨率并通过全局推理优化光照与材质估计。
-
Philip 等:多尺度 CNN 输出漫反射图与镜面反射图。
-
-
常用结构:U-Net(多尺度、图像到图像的密集预测能力)
-
[12][13]:估计反照率(Albedo)与阴影
-
[14][26]:额外预测深度和法线,用于光照编辑与物体插入
-
🔍 2.2.2 扩散模型(Diffusion Models)
-
优势:可在多种条件(文本、框选、图像等)下生成高质量、真实感强的图像。
-
特性:
- 训练于大规模真实世界数据(常为图文对),学习了丰富的场景先验。
-
应用:
-
Kocsis 等:将扩散模型的先验用于材质估计。
-
Du 等:用 LoRA(低秩适配器)微调扩散模型,生成法线、深度、反照率和阴影。
-
🔍 2.2.3 Transformer 模型
-
优势:视觉 Transformer(ViT)通过空间注意力捕捉长程依赖,相比 CNN 的局部感受野更适合光照估计。
-
应用:
-
IRISformer [36]:使用 4 层 Transformer 编解码结构,预测空间变化光照。
-
MAIR [4](多视图注意力网络 MVANet):聚合多视图图像,预测反照率、粗糙度、法线,实现高精度的物体插入(尤其对镜面物体反射准确)。
-
可微渲染与辐射场(Differentiable Rendering & Radiance Fields)
-
核心思路:显式或隐式建模 3D 场景(几何 + 材质 + 光照),用可微渲染方程在图像空间对齐多视角观测,通过反向传播优化参数。
-
表示方式:
-
显式几何:网格 / SDF(PhysSG, I²-SDF)
-
隐式场景:辐射场(NeRF)、3DGS
-
-
特点:
-
优点:物理一致性强,可直接在 3D 空间做编辑(重新光照、物体插入等)
-
缺点:计算量大,对初始化敏感
-
-
细分:
-
基于优化的纯可微渲染:Inverse Path Tracing, PhysSG, Zhang et al., I²-SDF, GS-IR, GIR
-
带预训练先验的可微渲染(2.3.2):NeRFactor, Li et al., Zhu et al., GIR(环境图模块)
-
🔍 2.3.1 基于优化的逆可微渲染(Optimization-Based)
-
给定粗略几何与目标分割,通过 逆路径追踪(Inverse Path Tracing) 优化物理光传输参数:
-
多视角输入
-
为不同物体选择不同的 BRDF
-
用蒙特卡洛采样生成更多光线(相当于优化中的随机梯度)
-
-
缺点:计算量大、渲染结果有噪声,但优化等价于随机梯度下降。
-
Inverse Path Tracing
计算量大,仅能处理简单几何和材质一致的物体。 -
PhysSG
-
用 MLP 表示的 SDF 建模几何
-
单色各向同性 BRDF 建模反射
-
128 个球面高斯(SG)逼近环境光照
-
支持可微渲染、多视图联合优化
-
假设:镜面各向同性 BRDF + 仅直射光照
-
-
Zhang et al.
从辐射场(Radiance Field)的 plenoptic function 直接捕获间接光照,在几何和光照训练完成后优化 SVBRDF,减少计算量。 -
I²-SDF
分别建模 SDF、辐射材质和发射场,通过路径追踪提高物理精度。 -
3D Gaussian Splatting (3DGS)
重建质量高但法线不稳定、间接光照遮挡支持不足。-
GS-IR:优化时集中深度梯度 + 烘焙遮挡立方体贴图
-
GIR:将辐射场烘焙到体素网格中用于间接光照
-
🔍 2.3.2 带预训练先验的辐射场方法
-
利用学习到的先验提升可微渲染逆问题的效果。
-
Li et al.:多级编码器-解码器串联,逐步预测场景属性,并结合可微渲染反传优化。
-
[16][26]:用可微重渲染进一步优化神经预测结果。
-
Zhu et al.:基于 G-buffer 的屏幕空间光线追踪,生成 SVBRDF 等属性。
-
NeRFactor [32]:预训练 BRDF 编码器,指导辐射场联合估计几何、SVBRDF 和间接光照。
-
GIR [21]:利用学习模块生成环境贴图。
2.2 学习先验的图像空间估计(Image-Space Estimation with Learned Priors)
2.2.1 CNN
方法 | 主要论文 | 链接 |
---|---|---|
HDR 环境光照估计([22][24]) | Gardner, M., Sunkavalli, K., Yumer, E., Shen, X., Gambaretto, E., & Lalonde, J.-F. (2017). Learning to predict indoor illumination from a single image ACM TOG (SIGGRAPH) | |
Li 等(级联 CNN 光照材质估计) | Li, Z., & Snavely, N. (2018). Learning intrinsic image decomposition from watching the world. CVPR | |
Philip 等(多尺度 CNN 漫反射/镜面反射估计) | Philip, J., Ghosh, A., & Mantiuk, R. (2019). Multi-scale image-based inverse rendering. SIGGRAPH Asia | |
Albedo / Shadow 估计([12][13]) | Narihira, T., Maire, M., & Yu, S. X. (2015). Direct Intrinsics: Learning Albedo-Shading Decomposition by Convolutional Regression. ICCV | |
深度 & 法线预测([14][26]) | Eigen, D., & Fergus, R. (2015). Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. ICCV |
2.2.2 扩散模型(Diffusion Models)
方法 | 主要论文 | 链接 |
---|---|---|
Kocsis 等(材质估计) | Kocsis, O., Chaurasia, G., & Bousseau, A. (2023). Diffusion-based inverse rendering. arXiv preprint | arXiv |
Du 等(LoRA 微调估计法线/深度等) | Du, Y., Xu, Z., Zhang, X., et al. (2023). DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation. (扩散模型生成多属性) | arXiv |
2.2.3 Transformer 模型
方法 | 主要论文 | 链接 |
---|---|---|
IRISformer [36] | Sun, T., Xu, Y., & Chen, Q. (2022). IRISformer: Dense inverse rendering with transformers. ECCV | |
MAIR / MVANet [4] | Srinivasan, P., Barron, J. T., Mildenhall, B., et al. (2021). Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering. (多视图光照估计) | arXiv |
2.3 可微渲染与辐射场(Differentiable Rendering & Radiance Fields)
2.3.1 基于优化的逆可微渲染
方法 | 主要论文 | 链接 |
---|---|---|
Inverse Path Tracing | Nimier-David, M., Vicini, D., Zeltner, T., & Jakob, W. (2019). Mitsuba 2 A Retargetable Forward and Inverse Renderer. ACM TOG | |
PhysSG | Zhang, X., Wu, R., et al. (2021). Physically-Based Differentiable Rendering with Spherical Gaussians for Fast Inverse Rendering. SIGGRAPH Asia | |
Zhang et al.(间接光照辐射场) | Zhang, K., et al. (2021). NeILF: Neural Incident Light Field for Inverse Rendering of Reflectance, Illumination, and Geometry. ICCV | |
I²-SDF | Xu, Z., et al. (2022). I²-SDF: Intrinsic Indoor Scene Reconstruction and Rendering with Signed Distance Fields. SIGGRAPH | |
3DGS | Kerbl, B., Kopanas, G., et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. SIGGRAPH | Project |
GS-IR / GIR | Li, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXiv | arXiv |
2.3.2 带预训练先验的辐射场方法
-
先用神经网络(通常是 NeRF 或变种)学习场表示(几何、反射、光照等的隐式编码)。
-
训练时引入可微渲染器或渲染损失,但网络已学到 数据分布先验(比如室内常见光源布置、常见材质分布)。
-
逆渲染时不是从零优化,而是 网络直接预测 或 在小范围内微调,速度更快、稳定性更高。
方法 | 主要论文 | 链接 |
---|---|---|
Li et al.(多级编码器 + 可微渲染) | Li, T.-M., et al. (2020). Inverse Rendering for Complex Indoor Scenes: Shape, Spatially-Varying Lighting and SVBRDF from a Single Image. SIGGRAPH Asia | |
Zhu et al.(G-buffer 屏幕空间光追) | Zhu, Y., et al. (2022). Learning-based inverse rendering of complex indoor scenes from a single image. CVPR | |
NeRFactor | Zhang, X., et al. (2021). NeRFactor: Neural Factorization of Shape and Reflectance under an Unknown Illumination. SIGGRAPH Asia | |
GIR(环境图模块) | Li, Z., et al. (2023). Gaussian Splatting for Inverse Rendering. arXiv | arXiv |