CoDi-多模态 AI 大模型

CoDi是什么？

CoDi (Composable Diffusion) 是一个新颖的生成模型，能够从任何组合的输入模态（如语言、图像、视频或音频）生成任何组合的输出模态。

与现有的生成 AI 系统不同，CoDi 可以并行生成多种模态，其输入不仅限于文本或图像等子集模态。尽管许多模态组合的训练数据集不存在，但我们提出在输入和输出空间中对模态进行对齐。这使 CoDi 能够自由地根据任何输入组合进行条件设置，并生成任何模态组，即使它们在训练数据中不存在。CoDi 采用了一种新颖的可组合生成策略，该策略涉及通过在扩散过程中建立对齐来构建共享的多模态空间，从而实现交织模态（如时间对齐的视频和音频）的同步生成。CoDi 高度定制化和灵活，实现了强大的联合模态生成质量，并与单模态合成的最新技术相媲美或者在同等水平。

CoDi 的模型架构使用了多阶段训练方案，使其能够仅对线性数量的任务进行训练，但对所有输入和输出模态的组合进行推理。

CoDi 的使用示例包括：