MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

MiMo-V2.5是什么

MiMo-V2.5 是小米 Xiaomi MiMo 团队发布的开源全模态大模型，被官方描述为"在 agency 与多模态能力上的一次跃迁"。模型采用稀疏 MoE 架构，总参 310B、激活 15B，在 48T tokens 上完成预训练。语言主干继承自 MiMo-V2-Flash 的混合滑动窗口注意力架构，搭载自研预训练的视觉与音频编码器，通过轻量化 projector 与语言模型对齐，使单一模型即可"看得见、听得到、能动手"。原生支持 1M tokens 上下文，在多模态 Agent 任务上对标 Claude Sonnet 4.6、视频任务对标 Gemini 3 Pro，在小米内部 Coding Bench 上以约一半成本达到 MiMo-V2.5-Pro 的水平。

MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

MiMo-V2.5的主要特性

原生全模态融合： 自研视觉与音频编码器通过轻量化 projector 与 LLM 主干对齐，单模型完成跨模态推理，不需要在多模态模型和文本模型之间切换。
稀疏 MoE 架构： 总参 310B / 激活 15B，256 个路由专家、每 token 激活 8 个，推理时仅激活极小比例参数，部署成本显著低于同参数规模的稠密模型。
混合注意力架构： 局部滑动窗口注意力（SWA）与全局注意力（GA）以 6:1 比例交错、128 滑动窗口，相比传统全局注意力将 KV-cache 存储压缩近 7 倍，长上下文性能不受损。
1M 原生长上下文： 后训练阶段从 32K 渐进扩展至 256K、再至 1M，长输入下保持有效推理而非纸面参数。
五阶段训练范式： 文本预训练建立 LLM 主干 → projector 预热对齐音视频 projector → 大规模多模态预训练 → SFT 与 Agentic 后训练（上下文渐进扩展）→ RL 与 MOPD（多教师在线策略蒸馏）。
多模态 Agent 对标顶级闭源： 在多模态 Agent 任务上对标 Claude Sonnet 4.6，视频任务对标 Gemini 3 Pro，图像与文档理解保持竞争力。
高 Token 效率： 在 Claw-Eval 一般子集得 62.3，处于"性能 / 效率"帕累托前沿，调用成本远低于同等能力闭源模型。
MIT 协议开源： 权重、tokenizer、完整 model card 在 HuggingFace 全量开放，允许商业使用、修改与再分发。

MiMo-V2.5的应用场景

多模态内容理解： 视频内容分析、图表与文档解读、跨模态推理，适用于内容审核、教育、医疗、媒资管理等场景。
日常 Agent 任务： Token 效率高、调用成本低，适合承载客服、文档处理、智能助手等高频中等难度的 Agent 业务。
教育与教研： 题图理解、视频讲解分析、跨模态学习材料生成。
多模态客服与音视频助手： 端到端理解用户上传的截图、录音、短视频，无需先调用 OCR / ASR 再喂给 LLM。
企业 API 接入： 通过 Xiaomi MiMo API 开放平台对接业务系统，OpenAI 兼容协议接入。
私有化部署： 基于开源权重在自有算力上部署，原生支持 SGLang、vLLM 推理框架。

MiMo-V2.5的产品定价

通过 Xiaomi MiMo API 开放平台付费调用，定价于 2026 年 5 月 27 日起永久下调，新定价相比原 API 价格最高降幅 99%，且不再区分上下文窗口长度。

计费模式	说明
按量计费（API）	永久降价后按 token 实际消耗计费，具体单价以官网为准
Token Plan 订阅	1 Token = 1 Credit（1x），不再区分上下文窗口
夜间优惠	北京时间 00:00–08:00 Credits 消耗速率 0.8 倍
连续包月 / 包年	支持自动续费，年付 88 折
开源版本	从 HuggingFace 免费下载权重，自行部署无 API 费用，MIT 协议商用

具体单价以 Xiaomi MiMo API 开放平台公布的最新价目为准。

如何使用MiMo-V2.5

Web 端体验： 访问 https://aistudio.xiaomimimo.com 注册登录，模型选择 MiMo-V2.5 即可对话。
API 接入： 访问 https://platform.xiaomimimo.com 注册开发者账号，创建 API Key，调用接口兼容 OpenAI 格式，模型 ID 填 mimo-v2.5。
私有化部署： 从 https://huggingface.co/XiaomiMiMo/MiMo-V2.5 下载开源权重，按官方推荐使用 SGLang 或 vLLM 推理引擎启动服务。
Token Plan 订阅： 在 API 开放平台购买月度或年度 Token Plan 订阅，按 Credits 计费消耗，1 Token = 1 Credit。
Agent 框架集成： 在 Claude Code、OpenCode、Kilo 等支持 OpenAI 兼容协议的 Agent 客户端中将 endpoint 切到 MiMo 平台即可调用。

常见问题

Q：MiMo-V2.5 是开源的吗？可以商用吗？

A：是。MiMo-V2.5 与对应的 Base 版本均已在 HuggingFace 全量开源，采用 MIT 协议，允许商业使用、修改与再分发。

Q：MiMo-V2.5 和 MiMo-V2.5-Pro 是什么关系？

A：两款是同系列下面向不同任务的两条独立线，不是同一模型的大小档。MiMo-V2.5 主打原生全模态能力，单模型即支持文本、图像、视频、音频，token 效率更高；MiMo-V2.5-Pro 是纯文本/代码的长程 Agent 旗舰，没有原生多模态能力，但在千轮级工具调用与软件工程任务上能力更强。需要看图听音 → V2.5；需要重度长程 Agent → V2.5-Pro。

Q：MiMo-V2.5 支持哪些模态？

A：原生支持文本、图像、视频、音频四种模态的输入理解，通过自研视觉与音频编码器接入主干 LLM。语音输出可通过同系列的 MiMo-V2.5-TTS 等专项模型补充。

Q：和 Kimi、DeepSeek 等开源大模型相比有什么差异？

A：MiMo-V2.5 的核心差异化在于原生全模态融合——国产开源阵营中少见的单模型即支持视频与音频理解的方案，且按 MIT 协议开放，配套国产主流芯片首日深度适配。

Q：国内可以直接使用吗？

A：可以。Xiaomi MiMo API 开放平台与 MiMo Studio 在国内直接可用，无需额外网络环境。

Q：本地部署需要什么硬件？

A：MiMo-V2.5 总参 310B、激活 15B，对算力要求相对友好，部分高端工作站可承载。具体硬件配置参考官方 SGLang / vLLM 部署文档。

MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

MiMo-V2.5是什么

MiMo-V2.5的主要特性

MiMo-V2.5的应用场景

MiMo-V2.5的产品定价

如何使用MiMo-V2.5

常见问题

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型

MiMo-V2.5是什么

MiMo-V2.5的主要特性

MiMo-V2.5的应用场景

MiMo-V2.5的产品定价

如何使用MiMo-V2.5

常见问题

Emu3：智源推出的原生多模态世界模型，可实现图像、文本、视频的统一理解和生成

FLUX.1 Tools：Black Forest Labs 推出的 AI 图像处理模型套件，实现精准的图像编辑和生成

Gemma 3：Google 推出的轻量级高性能开源模型，支持单个GPU运行

Seed1.5-VL：字节跳动推出的视觉-语言多模态基础模型

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型