UniVG-百度开源的统一模态视频生成模型

UniVG 是百度开发的一种统一模态的视频生成系统。这个系统通过处理文本和图像两种方式，能够解决多种视频生成任务。UniVG 主要分为高自由度和低自由度视频生成两个类别，并采用了多条件交叉注意力和偏置高斯噪声等方法来提高生成视频的质量。在公共学术基准 MSR-VTT 上，UniVG 取得了最低的帧间视频差异性度量，不仅在技术性能上超越了当前的开源方法，而且与业界领先的闭源方法 Gen2 相当。

UniVG 引入了“多条件交叉注意力”技术，用于高自由度视频生成，以生成与输入图像或文本语义一致的视频。在低自由度视频生成方面，采用了“偏置高斯噪声”的方法，相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

总的来说，UniVG 的推出为视频生成模型领域带来了新的可能性，提供了更灵活的输入方式，满足了真实世界多变的应用需求。

UniVG相关链接：

项目：univg-baidu.github.io
论文：https://arxiv.org/pdf/2401.09084

UniVG-百度开源的统一模态视频生成模型

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

代号 Craft - 腾讯推出的AI游戏创作平台

Step 3.7 Flash - 阶跃星辰推出的面向真实 Agent 场景的高效率多模态模型

Claude Opus 4.8 - Anthropic旗舰AI模型，支持复杂编码与长程Agent任务

Miora妙境 - 腾讯推出的全场景创意智能体工作室

齐家AI - 面向中国家长的免费公益开源的 AI 家庭教练

VibePaper - 短剧制作团队的AI协作工作台，节点式无限画布

W.A.L.T：通过扩散模型生成逼真视频的AI模型

DreaMoving：基于扩散模型的可控视频生成框架

VideoPoet：Google发布的用于视频生成的大语言模型

MagicVideo-V2：字节跳动公布的AI视频生成框架