Lance - 字节跳动开源的原生统一多模态模型，支持图像与视频理解生成编辑

Lance是什么

Lance 是字节跳动推出的 3B 原生统一多模态模型，支持在单一框架下完成图像与视频的理解、生成和编辑任务。模型覆盖文生图、文生视频、图像编辑、视频编辑、图像理解和视频理解等能力，并采用分阶段多任务训练方式从零训练完成，适合多模态模型研究、视觉生成实验和图像视频智能应用探索。

Lance的主要特性

原生统一架构： 单一模型权重原生支持图像生成、视频生成、图像编辑、视频编辑、图像理解、视频理解六类任务，非 adapter 拼装、非任务路由式
文生视频（t2v）： 最高支持 121 帧视频生成，480p 分辨率，覆盖运动连贯性、镜头语言、物理合理性
文生图（t2i）： 768×768 分辨率图像生成，在 DPG-Bench 与 GenEval 双榜上达到 SOTA 级表现
图像编辑： 基于自然语言指令的图像局部与全局编辑，GEdit-Bench 综合分 7.30（领先 BAGEL、InternVL-U 等同类统一模型）
视频编辑： 基于参考视频与文本指令的视频内容修改、风格迁移
多轮一致性编辑： 支持对同一对象进行多轮迭代编辑，保持目标主体一致性
智能视频生成： 基于复杂指令的多镜头、多场景视频自动编排
图像理解： 视觉问答、图表推理、车牌识别、场景描述等多种 VQA 任务
视频理解： 视频问答、动作计数、视频描述（短描述与长描述）
完整开源链路： 代码 / 权重 / 推理脚本 / Gradio 界面 / 四大基准评测脚本全部开源，可复现性优于多数同类开源模型

Lance的部署方式

Lance 不提供 API 或在线试用，仅提供模型权重与推理代码，需自行部署：

环境准备： Python 3.10+、CUDA 12.4+、至少一张 40GB+ 显存 GPU（如 A100、H100、L40S）
克隆仓库： git clone https://github.com/bytedance/Lance.git
安装依赖： bash ./setup_env.sh
下载权重： 从 Hugging Face 下载模型权重至 downloads/ 目录
运行推理： 使用统一推理脚本 bash inference_lance.sh，或按任务运行专用一键脚本
可视化界面（可选）： python lance_gradio_t2v_v2t.py --gpus 0 --server-port 7860 启动 Gradio 网页界面

Lance的官方资源

官网链接：https://lance-project.github.io/
GitHub：https://github.com/bytedance/Lance
模型权重：https://huggingface.co/bytedance-research/Lance
论文地址：https://arxiv.org/abs/2605.18678

常见问题

Q：Lance 是什么？
A：Lance 是字节跳动推出的 3B 原生统一多模态模型，支持图像和视频的理解、生成与编辑。

Q：Lance 支持哪些任务？
A：Lance 支持文生图、文生视频、图像编辑、视频编辑、图像理解和视频理解等任务。

Q：Lance 是开源模型吗？
A：Lance 的代码已在 GitHub 发布，模型权重可在 Hugging Face 获取，Hugging Face 页面显示许可证为 Apache-2.0。

Q：Lance 适合普通用户直接使用吗？
A：Lance 更适合研究人员和开发者使用，需要本地部署、GPU 环境和命令行配置，不是面向普通用户的一键式 SaaS 产品。

Q：Lance 对硬件有什么要求？
A：官方推荐推理至少需要一张显存不低于 40GB 的 GPU，并要求 Python 3.10+ 和 CUDA 12.4+。

AIHub点评

Lance 的核心价值在于“统一多模态”，而不是某一个单点生成能力。它把图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解放在同一个模型框架中，代表了视觉多模态模型从单任务工具向统一视觉智能底座演进的方向。

Lance - 字节跳动开源的原生统一多模态模型，支持图像与视频理解生成编辑

Lance是什么

Lance的主要特性

Lance的部署方式

Lance的官方资源

常见问题

AIHub点评

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型

Lance是什么

Lance的主要特性

Lance的部署方式

Lance的官方资源

常见问题

AIHub点评

AnimateDiff-Lightning：字节发布的快速生成视频的AI模型

Emu3：智源推出的原生多模态世界模型，可实现图像、文本、视频的统一理解和生成

Qwen-Image：阿里通义千问推出的图像生成基础模型

Hunyuan-GameCraft：腾讯混元等开源的高动态交互式游戏视频生成框架

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型