当前位置:首页>AI工具>AI视频工具>VividTalk:一张照片和一段音频生成高质量说话视频

VividTalk:一张照片和一段音频生成高质量说话视频

VividTalk是一个由南京大学、阿里巴巴、字节跳动和南开大学联合开发的AI视频生成框架,它能够仅凭一张照片和一段音频生成高质量、逼真的说话视频。

VividTalk生成的视频具有高视觉质量,面部表情逼真,头部姿势多样,嘴唇同步显著提升,真实感和动态性更强。这个框架支持多种图像风格,包括照片、卡通图片等,并且支持多语言,使照片中的人物能够以多种语言“说话”。

VividTalk的工作原理主要分为两个阶段:

  1. 音频到网格的映射(第一阶段):这个阶段中,VividTalk将输入的音频映射到3D网格上。这涉及学习两种类型的运动:非刚性表情运动和刚性头部运动。对于表情运动,技术使用混合形状(blendshape)和顶点作为中间表示,以最大化模型的表示能力。混合形状提供了全局的粗略运动,而顶点偏移则描述了更细致的嘴唇运动。对于自然的头部运动,VividTalk提出了一个新颖的可学习的头部姿势代码本,采用了两阶段训练机制。
  2. 网格到视频的转换(第二阶段):这个阶段中,VividTalk使用双分支运动-VAE(变分自编码器)和生成器将学习到的网格转换为密集的运动,并基于这些运动逐帧合成高质量的视频。这一过程涉及将3D网格的运动转换为2D密集运动,然后输入到生成器中,以合成最终的视频帧。

通过这种方法,VividTalk能够生成与输入音频高度同步的逼真说话头像视频,提高了视频的真实感和动态性。

相关链接:

悬河ai 吐司AI绘画

©版权声明:如无特殊说明,本站所有内容均为AIHub原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
0 条回复
    暂无讨论,说说你的看法吧
error: