Xiaomi MiMo-V2-Omni 是什么
Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型,将图像、视频、音频、文本四路输入融合进单一共享骨干网络,实现真正的多模态统一感知。模型从训练起就将感知与行动一体化,原生支持工具调用、函数执行与 UI 定位,可直接接入 OpenClaw 等 Agent 框架。音频理解超越 Gemini 3 Pro,图像理解超越 Claude Opus 4.6,原生支持超过 10 小时连续音频处理,多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2,现已开放 API 接入与免费体验。

Xiaomi MiMo-V2-Omni 的模型特性
- 全模态统一感知: 图像、视频、音频、文本四路输入融合进单一共享骨干网络,同时看、听、读,而非各模态独立处理再拼接,感知更完整、推理更连贯
- 音频理解: 支持从环境声分类、多说话人分离、音视频联合推理,到超过 10 小时连续长音频的深度理解,综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一
- 图像理解: 具备强大的多学科视觉推理与复杂图表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平
- 视频理解: 支持原生音视频联合输入,实现真正的多模态视频理解,通过创新的视频预训练具备强大的情境感知与未来推理能力
- 原生 Agent 能力: 原生支持结构化工具调用、函数执行与 UI 定位,可直接接入 OpenClaw 等 Agent 框架,无需额外适配,在 PinchBench 上拿下均分第一,多模态 Agent 评测比肩 Gemini 3 Pro
- 代码与专业任务能力: 在 SWE-Bench Verified、GDPVal、Terminal Bench 2.0 等代码与专业生产力评测中与业界顶尖推理模型持平,多模态能力不以牺牲文本和代码能力为代价
Xiaomi MiMo-V2-Omni 的应用场景
- 自动驾驶视觉感知: 处理行车记录仪原始视频,实时识别潜在危险、追踪动态目标、分析路况风险,可作为自动驾驶系统的视觉感知核心
- 长音频内容处理: 对超过 10 小时的播客、会议录音、访谈进行完整理解与结构化摘要,无需人工分段,适合内容团队、调研人员和企业会议记录场景
- 跨平台浏览器 Agent: 结合 OpenClaw 等框架,控制浏览器完成跨平台多步骤任务,如跨平台比价、客服对话谈价、下单结账等复杂电商工作流,全程无需人工干预
- 多媒体内容生产与发布: 从内容设计、代码合成、音效生成到视频渲染、平台上传的端到端自动化工作流,适合需要批量生产和分发视频内容的团队
- 跨模态内容分析: 同时理解视频画面与音轨语义,分析影视蒙太奇手法、广告创意效果、教学视频内容,适合媒体研究、内容审核与创意分析场景
- 多模态专业文档处理: 处理包含图表、公式、图片的复杂专业文档,结合音视频材料进行综合分析,适合金融、医疗、教育等知识密集型行业
Xiaomi MiMo-V2-Omni 的产品定价
API 支持 256K 上下文长度,按 Token 计费:
| 计费项 | 价格 |
|---|---|
| 输入 | $0.4 / 百万 tokens |
| 输出 | $2 / 百万 tokens |
限时活动: 联合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 框架团队,为开发者提供为期一周的限时免费接口支持,具体信息以 MiMo 官方公众号和开放平台公告为准。
API 接入: https://platform.xiaomimimo.com
免费体验: https://aistudio.xiaomimimo.com
如何使用 Xiaomi MiMo-V2-Omni
- MiMo Studio 体验: 访问 aistudio.xiaomimimo.com,免费体验多模态理解和 Agent 能力,无需 API Key
- API 调用: 访问 platform.xiaomimimo.com,注册账号获取 API Key,支持图像、视频、音频、文本多模态输入
- OpenClaw 接入: 在 OpenClaw 等 Agent 框架中选择 MiMo-V2-Omni 作为底层模型,可直接调用其原生工具调用和 UI 定位能力,无需额外适配
常见问题
Q:MiMo-V2-Omni 和 MiMo-V2-Pro 有什么区别?
A:核心差异在于模态支持。V2 Pro 是纯文本推理模型,支持 1M 超长上下文,专为 Agent 代码和文本任务优化,性价比极高;V2 Omni 是全模态模型,支持图像、视频、音频、文本四路输入,具备跨模态联合推理能力,上下文窗口为 262K。两者在代码和 Agent 文本任务上均有出色表现,V2 Omni 额外覆盖多媒体感知场景。
Q:V2 Omni 的音频理解能力有多强?
A:在 MMAU-Pro、BigBench-Audio 评测中超越 Gemini 3 Pro,原生支持超过 10 小时连续音频理解,覆盖环境音分类、多说话人分离、音视频联合推理等任务,是目前音频理解能力最强的全模态模型之一。
Q:图像和视频理解表现怎么样?
A:图像理解(MMMU-Pro、CharXiv RQ)超越 Claude Opus 4.6,接近 Gemini 3 顶级闭源模型水平;视频理解(VideoMME、FutureOmni)支持原生音视频联合输入,具备情境感知和未来推理能力。
Q:在 Agent 任务中的表现如何?
A:在 MM-BrowserComp、OmniGAIA、ClawEval 等多模态 Agent 评测中超越 Gemini 3 Pro 和 GPT-5.2;在 SWE-Bench Verified、GDPVal 等代码和专业生产力评测中与业界顶尖推理模型持平。
Q:上下文窗口是多少?
A:262K Token,最大输出 32,000 Token。音频方面原生支持超过 10 小时连续处理。
产品点评
亮点: MiMo-V2-Omni 最突出的设计是"感知与行动一体化训练"——不是先训练感知模型再叠加 Agent 能力,而是从第一个训练步骤就将两者统一,模型原生具备工具调用和 UI 定位能力,接入 Agent 框架无需额外适配。超过 10 小时的连续音频理解是目前公开全模态模型中的最高水位,在长音频场景几乎没有竞争对手。图像理解超越 Opus 4.6、Agent 能力超越 Gemini 3 Pro 和 GPT-5.2,同时不以牺牲代码和文本能力为代价,综合表现均衡。

