multi-modal

单模态：只处理一种类型的数据，比如只处理文本（如GPT-3.5）、只处理图像（如图像识别模型）。

多模态：能够同时处理两种及以上类型的数据。例如，既能理解图片内容，又能理解文本描述，甚至还能结合音频、视频等信息进行综合分析和生成。对应的场景有

场景	主流模型
文生图片	DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图（腾讯）等
文生视频	Sora(OpenAI)、Stable Video Diffusion(Stability AI)
图生文（图片理解）	GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL（阿里）
图文生视频	Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI)
视频生文（视频理解）	Gemini 1.5 / Gemini Pro Vision（Google）

My Notes