豆包AI助手
当前位置:首页>AI模型>Lance - 字节跳动开源的原生统一多模态模型,支持图像与视频理解生成编辑

Lance - 字节跳动开源的原生统一多模态模型,支持图像与视频理解生成编辑

Lance是什么

Lance 是字节跳动推出的 3B 原生统一多模态模型,支持在单一框架下完成图像与视频的理解、生成和编辑任务。模型覆盖文生图、文生视频、图像编辑、视频编辑、图像理解和视频理解等能力,并采用分阶段多任务训练方式从零训练完成,适合多模态模型研究、视觉生成实验和图像视频智能应用探索。

ByteDance Lance

Lance的主要特性

  • 原生统一架构: 单一模型权重原生支持图像生成、视频生成、图像编辑、视频编辑、图像理解、视频理解六类任务,非 adapter 拼装、非任务路由式
  • 文生视频(t2v): 最高支持 121 帧视频生成,480p 分辨率,覆盖运动连贯性、镜头语言、物理合理性
  • 文生图(t2i): 768×768 分辨率图像生成,在 DPG-Bench 与 GenEval 双榜上达到 SOTA 级表现
  • 图像编辑: 基于自然语言指令的图像局部与全局编辑,GEdit-Bench 综合分 7.30(领先 BAGEL、InternVL-U 等同类统一模型)
  • 视频编辑: 基于参考视频与文本指令的视频内容修改、风格迁移
  • 多轮一致性编辑: 支持对同一对象进行多轮迭代编辑,保持目标主体一致性
  • 智能视频生成: 基于复杂指令的多镜头、多场景视频自动编排
  • 图像理解: 视觉问答、图表推理、车牌识别、场景描述等多种 VQA 任务
  • 视频理解: 视频问答、动作计数、视频描述(短描述与长描述)
  • 完整开源链路: 代码 / 权重 / 推理脚本 / Gradio 界面 / 四大基准评测脚本全部开源,可复现性优于多数同类开源模型

Lance的部署方式

Lance 不提供 API 或在线试用,仅提供模型权重与推理代码,需自行部署:

  1. 环境准备: Python 3.10+、CUDA 12.4+、至少一张 40GB+ 显存 GPU(如 A100、H100、L40S)
  2. 克隆仓库: git clone https://github.com/bytedance/Lance.git
  3. 安装依赖: bash ./setup_env.sh
  4. 下载权重:Hugging Face 下载模型权重至 downloads/ 目录
  5. 运行推理: 使用统一推理脚本 bash inference_lance.sh,或按任务运行专用一键脚本
  6. 可视化界面(可选): python lance_gradio_t2v_v2t.py --gpus 0 --server-port 7860 启动 Gradio 网页界面

Lance的官方资源

常见问题

Q:Lance 是什么?
A:Lance 是字节跳动推出的 3B 原生统一多模态模型,支持图像和视频的理解、生成与编辑。

Q:Lance 支持哪些任务?
A:Lance 支持文生图、文生视频、图像编辑、视频编辑、图像理解和视频理解等任务。

Q:Lance 是开源模型吗?
A:Lance 的代码已在 GitHub 发布,模型权重可在 Hugging Face 获取,Hugging Face 页面显示许可证为 Apache-2.0。

Q:Lance 适合普通用户直接使用吗?
A:Lance 更适合研究人员和开发者使用,需要本地部署、GPU 环境和命令行配置,不是面向普通用户的一键式 SaaS 产品。

Q:Lance 对硬件有什么要求?
A:官方推荐推理至少需要一张显存不低于 40GB 的 GPU,并要求 Python 3.10+ 和 CUDA 12.4+。

AIHub点评

Lance 的核心价值在于“统一多模态”,而不是某一个单点生成能力。它把图像生成、视频生成、图像编辑、视频编辑、图像理解和视频理解放在同一个模型框架中,代表了视觉多模态模型从单任务工具向统一视觉智能底座演进的方向。

©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。