豆包AI助手
当前位置:首页>AI模型>MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型,支持百万上下文

MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型,支持百万上下文

MiMo-V2.5是什么

MiMo-V2.5 是小米 Xiaomi MiMo 团队发布的开源全模态大模型,被官方描述为"在 agency 与多模态能力上的一次跃迁"。模型采用稀疏 MoE 架构,总参 310B、激活 15B,在 48T tokens 上完成预训练。语言主干继承自 MiMo-V2-Flash 的混合滑动窗口注意力架构,搭载自研预训练的视觉与音频编码器,通过轻量化 projector 与语言模型对齐,使单一模型即可"看得见、听得到、能动手"。原生支持 1M tokens 上下文,在多模态 Agent 任务上对标 Claude Sonnet 4.6、视频任务对标 Gemini 3 Pro,在小米内部 Coding Bench 上以约一半成本达到 MiMo-V2.5-Pro 的水平。

MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型,支持百万上下文

MiMo-V2.5的主要特性

  • 原生全模态融合: 自研视觉与音频编码器通过轻量化 projector 与 LLM 主干对齐,单模型完成跨模态推理,不需要在多模态模型和文本模型之间切换。
  • 稀疏 MoE 架构: 总参 310B / 激活 15B,256 个路由专家、每 token 激活 8 个,推理时仅激活极小比例参数,部署成本显著低于同参数规模的稠密模型。
  • 混合注意力架构: 局部滑动窗口注意力(SWA)与全局注意力(GA)以 6:1 比例交错、128 滑动窗口,相比传统全局注意力将 KV-cache 存储压缩近 7 倍,长上下文性能不受损。
  • 1M 原生长上下文: 后训练阶段从 32K 渐进扩展至 256K、再至 1M,长输入下保持有效推理而非纸面参数。
  • 五阶段训练范式: 文本预训练建立 LLM 主干 → projector 预热对齐音视频 projector → 大规模多模态预训练 → SFT 与 Agentic 后训练(上下文渐进扩展)→ RL 与 MOPD(多教师在线策略蒸馏)。
  • 多模态 Agent 对标顶级闭源: 在多模态 Agent 任务上对标 Claude Sonnet 4.6,视频任务对标 Gemini 3 Pro,图像与文档理解保持竞争力。
  • 高 Token 效率: 在 Claw-Eval 一般子集得 62.3,处于"性能 / 效率"帕累托前沿,调用成本远低于同等能力闭源模型。
  • MIT 协议开源: 权重、tokenizer、完整 model card 在 HuggingFace 全量开放,允许商业使用、修改与再分发。

MiMo-V2.5的应用场景

  • 多模态内容理解: 视频内容分析、图表与文档解读、跨模态推理,适用于内容审核、教育、医疗、媒资管理等场景。
  • 日常 Agent 任务: Token 效率高、调用成本低,适合承载客服、文档处理、智能助手等高频中等难度的 Agent 业务。
  • 教育与教研: 题图理解、视频讲解分析、跨模态学习材料生成。
  • 多模态客服与音视频助手: 端到端理解用户上传的截图、录音、短视频,无需先调用 OCR / ASR 再喂给 LLM。
  • 企业 API 接入: 通过 Xiaomi MiMo API 开放平台对接业务系统,OpenAI 兼容协议接入。
  • 私有化部署: 基于开源权重在自有算力上部署,原生支持 SGLang、vLLM 推理框架。

MiMo-V2.5的产品定价

通过 Xiaomi MiMo API 开放平台付费调用,定价于 2026 年 5 月 27 日起永久下调,新定价相比原 API 价格最高降幅 99%,且不再区分上下文窗口长度。

计费模式说明
按量计费(API)永久降价后按 token 实际消耗计费,具体单价以官网为准
Token Plan 订阅1 Token = 1 Credit(1x),不再区分上下文窗口
夜间优惠北京时间 00:00–08:00 Credits 消耗速率 0.8 倍
连续包月 / 包年支持自动续费,年付 88 折
开源版本从 HuggingFace 免费下载权重,自行部署无 API 费用,MIT 协议商用

具体单价以 Xiaomi MiMo API 开放平台 公布的最新价目为准。

如何使用MiMo-V2.5

  1. Web 端体验: 访问 https://aistudio.xiaomimimo.com 注册登录,模型选择 MiMo-V2.5 即可对话。
  2. API 接入: 访问 https://platform.xiaomimimo.com 注册开发者账号,创建 API Key,调用接口兼容 OpenAI 格式,模型 ID 填 mimo-v2.5
  3. 私有化部署:https://huggingface.co/XiaomiMiMo/MiMo-V2.5 下载开源权重,按官方推荐使用 SGLang 或 vLLM 推理引擎启动服务。
  4. Token Plan 订阅: 在 API 开放平台购买月度或年度 Token Plan 订阅,按 Credits 计费消耗,1 Token = 1 Credit。
  5. Agent 框架集成: 在 Claude Code、OpenCode、Kilo 等支持 OpenAI 兼容协议的 Agent 客户端中将 endpoint 切到 MiMo 平台即可调用。

常见问题

Q:MiMo-V2.5 是开源的吗?可以商用吗?

A:是。MiMo-V2.5 与对应的 Base 版本均已在 HuggingFace 全量开源,采用 MIT 协议,允许商业使用、修改与再分发。

Q:MiMo-V2.5 和 MiMo-V2.5-Pro 是什么关系?

A:两款是同系列下面向不同任务的两条独立线,不是同一模型的大小档。MiMo-V2.5 主打原生全模态能力,单模型即支持文本、图像、视频、音频,token 效率更高;MiMo-V2.5-Pro 是纯文本/代码的长程 Agent 旗舰,没有原生多模态能力,但在千轮级工具调用与软件工程任务上能力更强。需要看图听音 → V2.5;需要重度长程 Agent → V2.5-Pro。

Q:MiMo-V2.5 支持哪些模态?

A:原生支持文本、图像、视频、音频四种模态的输入理解,通过自研视觉与音频编码器接入主干 LLM。语音输出可通过同系列的 MiMo-V2.5-TTS 等专项模型补充。

Q:和 Kimi、DeepSeek 等开源大模型相比有什么差异?

A:MiMo-V2.5 的核心差异化在于原生全模态融合——国产开源阵营中少见的单模型即支持视频与音频理解的方案,且按 MIT 协议开放,配套国产主流芯片首日深度适配。

Q:国内可以直接使用吗?

A:可以。Xiaomi MiMo API 开放平台与 MiMo Studio 在国内直接可用,无需额外网络环境。

Q:本地部署需要什么硬件?

A:MiMo-V2.5 总参 310B、激活 15B,对算力要求相对友好,部分高端工作站可承载。具体硬件配置参考官方 SGLang / vLLM 部署文档。

©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。