LongCat-Video-Avatar 1.5：美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5 是什么

LongCat-Video-Avatar 1.5 是美团 LongCat Team 推出的开源音频驱动数字人视频生成模型，构建在 LongCat-Video 基础视频模型之上，面向虚拟人、数字人、动画角色和多人互动等视频生成场景。它支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和 Video Continuation 等任务，可根据语音、文本描述和参考图像生成具有唇形同步、表情变化、头部姿态和身体动作的角色视频。相较 1.0 版本，1.5 重点强化了唇形精度、长视频身份一致性、多人对话区分能力和推理效率，更接近可落地使用的数字人视频生成模型。

LongCat-Video-Avatar 1.5 的主要特性

音频驱动数字人生成：支持根据语音输入驱动人物说话、表情和动作，覆盖单角色与多角色视频生成。
支持多种生成任务：原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 和音频驱动视频续写，可用于从文本、图像和已有视频片段扩展生成数字人内容。
Whisper-Large 音频编码器升级：1.5 版本将音频编码器从 Wav2Vec2 升级为 Whisper-large / Whisper-large-v3，以增强多语言语音节奏理解和唇形同步效果。
长视频稳定性更强：模型针对长句、快语速、歌唱、手部动作、多人互动等复杂输入进行优化，重点提升身份一致性、画面连续性和动作自然度。
多人互动与多音频输入：支持 single-stream 与 multi-stream audio 输入，可处理多人对话、多人同框和说话者/聆听者区分等场景。
8 步快速推理：通过 DMD / DMD2 蒸馏，将生成过程压缩到 8 步，官方称推理效率约提升 15 倍，10 秒视频约 1 分钟生成。
开源权重与代码：GitHub 仓库和 Hugging Face 模型页均已开放，模型权重采用 MIT License。

LongCat-Video-Avatar 1.5 的应用场景

数字人直播与电商营销： 商家上传商品讲解音频与产品图，批量生成唇音同步、表情自然的数字人带货视频，覆盖直播间循环播放与短视频投放。
在线教育与虚拟讲师： 教育机构将课程音频转为虚拟讲师视频，长时讲解中身份与画面保持稳定，支持手势与情绪过渡。
虚拟客服与品牌数字人： 企业可在官网接待、自动外呼、客服回访等场景部署专属数字人，多轮对话不脱戏。
唱歌与音乐内容生成： 支持音乐场景的动态肢体与表情，可用于虚拟歌手 MV、翻唱内容生成。
多人对话与群体动画： 同时驱动多个角色发声，画面身份稳定、自然轮替，适合短剧、播客可视化、群聊片段。
动画与风格化角色： 模型对二次元、动物、风格化造型有较强泛化能力，可用于动画番外、IP 拟人化与角色短片。
学术与开源二次开发： AIGC 研究者可基于 MIT 协议自由微调、蒸馏、做 LoRA 适配，开展数字人方向的研究。

LongCat-Video-Avatar 1.5 的产品定价

LongCat-Video-Avatar 1.5 完全开源免费，采用 MIT License，模型权重、推理代码与技术报告对外开放，允许商用与二次开发。使用成本主要来自部署所需的 GPU 算力，团队提供 INT8 量化降低显存门槛，具体硬件需求以官方仓库说明为准。

如何使用 LongCat-Video-Avatar 1.5

在线体验 demo： https://huggingface.co/spaces/victor/LongCat-Video-Avatar-1.5
查看项目主页与示例：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page
下载模型权重：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
拉取推理代码： https://github.com/meituan-longcat/LongCat-Video。
本地或云端部署推理： 按 README 配置环境与 GPU，加载模型权重；显存受限场景可启用 INT8 量化版本。
准备输入素材： 准备驱动音频（单流或多流）与参考图像/文本，按目标任务（AT2V / ATI2V / Video Continuation）调用对应推理脚本生成视频。

AIHub点评

LongCat-Video-Avatar 1.5 的价值不在于“又一个视频生成模型”，而在于它把开源视频生成能力进一步推向了数字人应用的核心难点：唇形同步、身份一致性、长时序稳定、多人互动和推理效率。相比偏展示型的视频模型，它更接近数字人播报、AI讲解、电商导购和虚拟角色表演这类实际应用场景。对于开发者和内容平台来说，它提供了一个可本地部署、可二次开发的开源数字人视频生成底座；但对普通用户而言，当前仍有一定部署门槛。

LongCat-Video-Avatar 1.5：美团开源的音频驱动数字人视频生成模型

LongCat-Video-Avatar 1.5 是什么

LongCat-Video-Avatar 1.5 的主要特性

LongCat-Video-Avatar 1.5 的应用场景

LongCat-Video-Avatar 1.5 的产品定价

如何使用 LongCat-Video-Avatar 1.5

AIHub点评

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型

LongCat-Video-Avatar 1.5 是什么

LongCat-Video-Avatar 1.5 的主要特性

LongCat-Video-Avatar 1.5 的应用场景

LongCat-Video-Avatar 1.5 的产品定价

如何使用 LongCat-Video-Avatar 1.5

AIHub点评

HunyuanCustom：腾讯混元开源的多模态定制化视频生成工具

硅基智能-AI数字人服务平台

Gemma-谷歌发布的最新开放模型，小尺寸可商用

Llama 3-Meta最新推出的新一代开源大模型

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型