SDS, Score Distillation Sampling

假设 3D 表示为 Θ，渲染得到的图像为 X（通过某种渲染函数 G），目标是用预训练的 2D 扩散模型去更新 3D 表示 Θ，使得渲染结果 X 符合给定的指令（无论是文本提示还是图像提示）。

一种这样的优化方法称为 Score Distillation Sampling（简称 SDS）。SDS 的步骤是：从 3D 表示 Θ 渲染图像，向图像添加噪声，然后对图像去噪；去噪前后图像的残差即为一个评分（score），该评分被反向传播回 3D 表示 Θ。在左侧我们可视化了对象的 SDS 优化过程，右侧展示了若干最终优化得到的 3D 结果示例。

然而，SDS 优化的一个问题是：即使是用文本提示，SDS 通常也只能生成单一模态的 3D 对象，换言之缺乏多样性。为改进 SDS 的一个方向是为一个文本提示生成多样的结果。为实现这一点，与其只优化单一点 Θ，不如去学习 Θ 的分布（记作 μ），通过从该分布采样 Θ 来生成多样结果。人们用变分推断（variational inference）来学习这个分布。基本上我们可以从学到的 Θ 分布中得到一组渲染图像，这些渲染图像代表变分分布，目标是将这变分分布匹配到由预训练 2D 扩散模型所输出的目标分布（这里我们假设预训练的 2D 扩散模型给出目标分布）。

那么下个问题是如何优化这个分布匹配。直接去匹配两个分布是有挑战的，因为图像位于复杂的高维空间；相比之下，在噪声分布上进行优化更可行，因为噪声分布是已知且预定义的。因此，优化目标可以改为在各个时间步上匹配噪声分布，使得训练过程更可控、更有效。

My Notes

Explorer

SDS, Score Distillation Sampling

Graph View

Backlinks