Open-Sora: Colossal-AI开源的类Sora架构视频生成模型

Open-Sora是什么？

Open-Sora 1.0是由Colossal-AI团队开源的类Sora架构视频生成模型，采用Diffusion Transformer(DiT) 架构，能够根据文本提示生成高质量视频内容。该模型通过三个阶段的训练流程实现，包括大规模图像预训练、视频预训练和微调。Open-Sora 1.0的开源降低了视频生成的技术门槛，为AI在视频创作领域的应用开辟了新路径。

Open-Sora的模型架构

Open-Sora 1.0的模型架构基于当前流行的Diffusion Transformer (DiT) 架构，并针对视频生成任务进行了特别的扩展。以下是该模型架构的关键组成部分：

预训练的VAE (Variational Autoencoder)：用于对视频数据进行压缩，将数据编码到一个潜在空间中，以便与文本嵌入一起用于后续的生成过程。
文本编码器：将输入的文本提示转换为嵌入向量，这些向量在生成过程中与视频特征结合。
STDiT (Spatial Temporal Diffusion Transformer)：这是模型的核心，它结合了空间注意力和时间注意力机制，用于建模视频帧之间的时序关系。STDiT通过串行地在二维空间注意力模块上叠加一维时间注意力模块来实现这一点。
交叉注意力模块：在时间注意力模块之后，该模块用于对齐文本的语义信息，与全注意力机制相比，这种结构显著降低了训练和推理的计算开销。
训练和推理流程：在训练阶段，首先使用VAE的编码器压缩视频数据，然后在潜在空间中结合文本嵌入训练STDiT扩散模型。在推理阶段，从VAE的潜在空间中采样高斯噪声，并与提示词嵌入一起输入到STDiT中，得到去噪后的特征，最后通过VAE的解码器生成视频。

Open-Sora 1.0的模型架构设计允许它有效地生成与文本描述相匹配的视频内容，同时保持较低的计算成本和高效的训练过程。这种结合了空间和时间信息的混合注意力机制是实现高质量视频生成的关键。