Image Editing
https://arxiv.org/pdf/2402.17525
扩散模型原理及优势
原输入(图像或编码)逐步DDIM采样(重复性不同程度不同路径地加噪),再 Inversion(记忆确定已知的加噪过程,通过试错,逆推噪音到原图的计算方式),若 reconstruction failure 则初始化。
训练目标是最小化正向分布q(马尔可夫链加噪声过程)与模型分布p(去噪声过程)、或者说最大化ELBO(变分下界)。
模型实际使用的loss:
文本条件控制:在扩散采样时,引入文本编码 C=ψ(P) 引导图像生成。
Classifier-Free Guidance:给文本控制程度加权
Stable Diffusion 中的注意力机制:分两种。Cross-Attention(图像的空间特征(Query)和文本 token(Key, Value)对齐),和Self-Attention(图像本身的局部一致性和各局部的互动性)
用于无监督图像生成与编辑
分类方法
学习策略
Training-based:
需预训练大模型。适用于特定任务,常用与具有中小型数据集的特定领域。从训练的数据类型入手
Domain-Specific Editing
Reference & Attribute Guided Editing
Instructional Editing:text prompt guided
Pseudo-Target Retrieval-Based Editing:不直接编辑输入图像,而是在数据集中检索“类似的目标图”作为伪监督信号,再指导模型进行图像修改。
Testing-time finetuning
不训练模型,但推理时要微调。从潜在表示或表示的结构入手
Denoising Model Finetuning:对扩散模型(特别是 U-Net)进行微调
Embedding Finetuning
Hypernetwork Guidance
Latent Variable Optimization
Hybrid Finetuning
Training/finetuning free
直接推理即可。后处理,精细输入或精细从潜变量得到输出的过程
Input Text Refinement
Inversion / Sampling Modification
Attention Modification
Mask Guidance
Multi-Noise Redirection
十种输入条件
文本、掩码、参考图、类别、布局、姿态、草图、分割图、音频、拖拽点
编辑任务类型
类别 | 子任务示例 |
语义编辑:增减或改变元素 | 加物体、删物体、换物体、换背景、情绪表达变换 |
风格编辑:改变值 | 颜色变化、纹理变化、整体风格变化 |
结构编辑:改变位置或结构 | 移动物体、改大小形状、动作姿态变换、视角变化 |
2D 编辑任务类型
条件图像生成
Text-to-Image, T2I:图像→潜空间→扩散。Stable Diffusion、DALL·E 2、VQ-diffusion
beyond text
Personalized Image Generation
SVG / vector graphics
图像修复与增强
基于输入图像作为条件,做超分辨率(SR)和去模糊
非空间域修复
T2I Prior:利用预训练 T2I 模型迁移做图像恢复
Projection-based
Decomposition-based
图像合成
Image-Based Virtual Try-On,VTON:TryOnDiffusion(双 UNet 同时处理衣物细节和人物姿态)、LaDIVTON(将服装特征映射到 CLIP 向量并作为 LDM 条件输入)、StableVITON(引入 zero cross-attention 加强衣物和人物之间的语义关联)
Image-Guided Object Composition
挑战
速度:few-step / one-step generation
成本:
结构感知
真实性
鲁棒
分辨率与效率的平衡
Instructional image editing 方法
image caption:图片描述
instruction:动作指令
目标是模型根据指令,理解要操作的区域、编辑类型和预期效果,再在图像上执行修改。
Framework
InstructPix2Pix
Stable Diffusion+ Prompt-to-Prompt
{
“input_image”: 原图,
“instruction”: “Have her ride a dragon.”,
“edited_image”: 编辑后图,
“edited_caption”: “Photograph of a girl riding a dragon.”
}
Architecture Enhancement
MoEController(闭源)
Mixture-of-Expert (MOE) architecture:local translation、style transfer、local complex editing
FoI
employs cross-condition attention modulation to ensure each instruction targets its corresponding area
Data Quality Enhancement
可local:
Human Feedback-Enhanced Learning
HIVE:引入 Reinforcement Learning from Human Feedback (RLHF) 机制
Visual Instruction
MLLM
Pseudo-Target Retrieval Based Editing
使用伪目标图(pseudo-target)或 CLIP 评分作为监督信号。
可local:
Instructional image editing Dataset
高光黄色的是local editing数据集,已将两个标黄的添加到“现有图片编辑数据集汇总”中
1. InstructPix2Pix Dataset
-
📄 来源:InstructPix2Pix(CVPR 2023)
-
🏗️ 构建方式:
-
输入一张图像及其 caption
-
用 GPT-3 生成一个编辑指令和一个编辑后 caption
-
用 Prompt-to-Prompt + Stable Diffusion 生成目标图像
-
-
📦 规模:~450,000 图像对(自动构造)
-
优点:规模大,覆盖范围广,适配指令式编辑的训练范式
2. MagicBrush
-
📄 来源:ACL 2023
-
🧑💻 构建方式:使用 AMT 众包进行连续人工编辑任务
-
📦 数据量:
-
5313 个编辑 session
-
10388 个连续编辑操作(turns)
-
-
✨ 特点:
-
每条数据包含一组连续指令和图像变化
-
适合研究多轮编辑和复杂操作序列
-
3. DialogPaint
-
📄 来源:DialogPaint(2023)
-
🗣️ 特点:多轮对话式指令图像编辑数据集
-
📦 构建方式:
-
利用 GPT-3 生成对话模拟指令生成过程(self-instruct)
-
配合多个图像编辑模型生成图像对
-
-
📚 用途:
-
多轮图像编辑任务
-
支持从“对话”中提取用户意图再驱动编辑
-
4. Inst-Inpaint / GQA-Inpaint
-
📄 来源:Inst-Inpaint(2023)
-
📦 基于 GQA 场景图数据集(真实图+语义结构)
-
📐 编辑内容:
-
删除图中指定物体(“remove the umbrella”)
-
无需用户提供 mask,系统自动提取物体位置
-
-
🤖 构建方法:
-
使用 Detectron2 + CRFill 实现自动 inpainting
-
使用模板生成文本指令
-
5. EmuEdit Dataset
-
📄 来源:EmuEdit(2024,by Emu)
-
🤖 构建方式:
-
使用 LLaMA 2 + in-context prompting 自动生成16类任务的图像编辑指令
-
每个任务包含 instruction + 原图 + 目标图
-
-
📦 数据量:1000 万条
-
✨ 优势:
-
多任务、多模态(包括分类、分割、编辑)
-
强化多样性与创造性指令
-
6. InstructDiffusion Dataset
-
📄 来源:InstructDiffusion(2023)
-
🔨 数据来源融合:
-
现有公开数据集(如 COCO、CelebA-HQ)
-
网络收集 Photoshop 编辑对
-
自构图像增强/目标替换编辑对
-
-
强调:统一多种 vision 任务为“人类指令驱动的图像操作”
7. ImageBrush
-
📄 来源:ImageBrush(2024)
-
💡 思路:用图像对(before + after)作为“视觉指令”
-
📐 构建方式:
-
将“示例图对”作为 prompt,引导目标图编辑
-
模型从中学习视觉风格迁移或编辑行为
-
-
🎯 适用于无语言指令、纯视觉驱动编辑任务
辅助数据:
数据集 | 用途 |
CLIPSeg | 提供 mask,用于局部控制编辑 |
GQA | 场景图辅助生成对象信息 |
VQA2.0 | 用于 instruction/question generation |
COCO | 常用图像来源 |
Photoshop request dataset | 网络收集真实编辑对 |
-
EditBench(2023):text + mask + image triplets,任务偏 inpainting。
-
EditEval(2024):7类 instruction,包括 object add/remove, style, background 等。