VividTalk：一张照片和一段音频生成高质量说话视频

VividTalk是一个由南京大学、阿里巴巴、字节跳动和南开大学联合开发的AI视频生成框架，它能够仅凭一张照片和一段音频生成高质量、逼真的说话视频。

VividTalk生成的视频具有高视觉质量，面部表情逼真，头部姿势多样，嘴唇同步显著提升，真实感和动态性更强。这个框架支持多种图像风格，包括照片、卡通图片等，并且支持多语言，使照片中的人物能够以多种语言“说话”。

VividTalk的工作原理主要分为两个阶段：

音频到网格的映射（第一阶段）：这个阶段中，VividTalk将输入的音频映射到3D网格上。这涉及学习两种类型的运动：非刚性表情运动和刚性头部运动。对于表情运动，技术使用混合形状（blendshape）和顶点作为中间表示，以最大化模型的表示能力。混合形状提供了全局的粗略运动，而顶点偏移则描述了更细致的嘴唇运动。对于自然的头部运动，VividTalk提出了一个新颖的可学习的头部姿势代码本，采用了两阶段训练机制。
网格到视频的转换（第二阶段）：这个阶段中，VividTalk使用双分支运动-VAE（变分自编码器）和生成器将学习到的网格转换为密集的运动，并基于这些运动逐帧合成高质量的视频。这一过程涉及将3D网格的运动转换为2D密集运动，然后输入到生成器中，以合成最终的视频帧。

通过这种方法，VividTalk能够生成与输入音频高度同步的逼真说话头像视频，提高了视频的真实感和动态性。