豆包AI助手
当前位置:首页>AI模型>LongCat-Video-Avatar 1.5:美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5:美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5 是什么

LongCat-Video-Avatar 1.5 是美团 LongCat Team 推出的开源音频驱动数字人视频生成模型,构建在 LongCat-Video 基础视频模型之上,面向虚拟人、数字人、动画角色和多人互动等视频生成场景。它支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation 等任务,可根据语音、文本描述和参考图像生成具有唇形同步、表情变化、头部姿态和身体动作的角色视频。相较 1.0 版本,1.5 重点强化了唇形精度、长视频身份一致性、多人对话区分能力和推理效率,更接近可落地使用的数字人视频生成模型。

LongCat-Video-Avatar 1.5

LongCat-Video-Avatar 1.5 的主要特性

  • 音频驱动数字人生成:支持根据语音输入驱动人物说话、表情和动作,覆盖单角色与多角色视频生成。
  • 支持多种生成任务:原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和音频驱动视频续写,可用于从文本、图像和已有视频片段扩展生成数字人内容。
  • Whisper-Large 音频编码器升级:1.5 版本将音频编码器从 Wav2Vec2 升级为 Whisper-large / Whisper-large-v3,以增强多语言语音节奏理解和唇形同步效果。
  • 长视频稳定性更强:模型针对长句、快语速、歌唱、手部动作、多人互动等复杂输入进行优化,重点提升身份一致性、画面连续性和动作自然度。
  • 多人互动与多音频输入:支持 single-stream 与 multi-stream audio 输入,可处理多人对话、多人同框和说话者/聆听者区分等场景。
  • 8 步快速推理:通过 DMD / DMD2 蒸馏,将生成过程压缩到 8 步,官方称推理效率约提升 15 倍,10 秒视频约 1 分钟生成。
  • 开源权重与代码:GitHub 仓库和 Hugging Face 模型页均已开放,模型权重采用 MIT License。

LongCat-Video-Avatar 1.5 的应用场景

  • 数字人直播与电商营销: 商家上传商品讲解音频与产品图,批量生成唇音同步、表情自然的数字人带货视频,覆盖直播间循环播放与短视频投放。
  • 在线教育与虚拟讲师: 教育机构将课程音频转为虚拟讲师视频,长时讲解中身份与画面保持稳定,支持手势与情绪过渡。
  • 虚拟客服与品牌数字人: 企业可在官网接待、自动外呼、客服回访等场景部署专属数字人,多轮对话不脱戏。
  • 唱歌与音乐内容生成: 支持音乐场景的动态肢体与表情,可用于虚拟歌手 MV、翻唱内容生成。
  • 多人对话与群体动画: 同时驱动多个角色发声,画面身份稳定、自然轮替,适合短剧、播客可视化、群聊片段。
  • 动画与风格化角色: 模型对二次元、动物、风格化造型有较强泛化能力,可用于动画番外、IP 拟人化与角色短片。
  • 学术与开源二次开发: AIGC 研究者可基于 MIT 协议自由微调、蒸馏、做 LoRA 适配,开展数字人方向的研究。

LongCat-Video-Avatar 1.5 的产品定价

LongCat-Video-Avatar 1.5 完全开源免费,采用 MIT License,模型权重、推理代码与技术报告对外开放,允许商用与二次开发。使用成本主要来自部署所需的 GPU 算力,团队提供 INT8 量化降低显存门槛,具体硬件需求以官方仓库说明为准。

如何使用 LongCat-Video-Avatar 1.5

  1. 在线体验 demo: https://huggingface.co/spaces/victor/LongCat-Video-Avatar-1.5
  2. 查看项目主页与示例:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page
  3. 下载模型权重:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
  4. 拉取推理代码: https://github.com/meituan-longcat/LongCat-Video。
  5. 本地或云端部署推理: 按 README 配置环境与 GPU,加载模型权重;显存受限场景可启用 INT8 量化版本。
  6. 准备输入素材: 准备驱动音频(单流或多流)与参考图像/文本,按目标任务(AT2V / ATI2V / Video Continuation)调用对应推理脚本生成视频。

AIHub点评

LongCat-Video-Avatar 1.5 的价值不在于“又一个视频生成模型”,而在于它把开源视频生成能力进一步推向了数字人应用的核心难点:唇形同步、身份一致性、长时序稳定、多人互动和推理效率。相比偏展示型的视频模型,它更接近数字人播报、AI讲解、电商导购和虚拟角色表演这类实际应用场景。对于开发者和内容平台来说,它提供了一个可本地部署、可二次开发的开源数字人视频生成底座;但对普通用户而言,当前仍有一定部署门槛。

©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。