当前位置:首页>AI工具>AI视频工具>W.A.L.T:通过扩散模型生成逼真视频的AI模型

W.A.L.T:通过扩散模型生成逼真视频的AI模型

近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。

这种方法有两个关键的设计决策。首先,它使用因果编码器共同压缩图像和视频,使其在统一的潜在空间内进行训练和生成,支持跨模态操作。其次,为了内存和训练效率,它使用了专为联合空间和时空生成建模量身定制的窗口注意力架构。这些设计决策的结合使得W.A.L.T在已建立的视频(如UCF-101和Kinetics-600)和图像(如ImageNet)生成基准测试中达到了最先进的性能,而且不需要使用无分类器的引导。

W.A.L.T官方演示视频:

W.A.L.T项目地址:https://walt-video-diffusion.github.io/

吐司AI绘画 笔灵AI论文

©版权声明:如无特殊说明,本站所有内容均为AIHub原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
0 条回复
    暂无讨论,说说你的看法吧
error: