多模态技术
单模态:只处理一种类型的数据,比如只处理文本(如GPT-3.5)、只处理图像(如图像识别模型)。
多模态:能够同时处理两种及以上类型的数据。例如,既能理解图片内容,又能理解文本描述,甚至还能结合音频、视频等信息进行综合分析和生成。对应的场景有
场景 | 主流模型 |
---|---|
文生图片 | DALL-E(OpenAI)、Imagen(Google)、Stable Diffusion(Stability AI)、混元文生图(腾讯)等 |
文生视频 | Sora(OpenAI)、Stable Video Diffusion(Stability AI) |
图生文(图片理解) | GPT-4V(OpenAI)、Gemini(Google)、Qwen-VL(阿里) |
图文生视频 | Runway Gen-2(Runway AI)、Stable Video Diffusion(Stability AI) |
视频生文(视频理解) | Gemini 1.5 / Gemini Pro Vision(Google) |