Xiaomi MiMo-V2-Omni：小米全模态 Agent 基座模型，图像视频音频文本统一理解

Xiaomi MiMo-V2-Omni 是什么

Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型，将图像、视频、音频、文本四路输入融合进单一共享骨干网络，实现真正的多模态统一感知。模型从训练起就将感知与行动一体化，原生支持工具调用、函数执行与 UI 定位，可直接接入 OpenClaw 等 Agent 框架。音频理解超越 Gemini 3 Pro，图像理解超越 Claude Opus 4.6，原生支持超过 10 小时连续音频处理，多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2，现已开放 API 接入与免费体验。

Xiaomi MiMo-V2-Omni 的模型特性

全模态统一感知： 图像、视频、音频、文本四路输入融合进单一共享骨干网络，同时看、听、读，而非各模态独立处理再拼接，感知更完整、推理更连贯
音频理解： 支持从环境声分类、多说话人分离、音视频联合推理，到超过 10 小时连续长音频的深度理解，综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一
图像理解： 具备强大的多学科视觉推理与复杂图表分析能力，超越 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型水平
视频理解： 支持原生音视频联合输入，实现真正的多模态视频理解，通过创新的视频预训练具备强大的情境感知与未来推理能力
原生 Agent 能力： 原生支持结构化工具调用、函数执行与 UI 定位，可直接接入 OpenClaw 等 Agent 框架，无需额外适配，在 PinchBench 上拿下均分第一，多模态 Agent 评测比肩 Gemini 3 Pro
代码与专业任务能力： 在 SWE-Bench Verified、GDPVal、Terminal Bench 2.0 等代码与专业生产力评测中与业界顶尖推理模型持平，多模态能力不以牺牲文本和代码能力为代价

Xiaomi MiMo-V2-Omni 的应用场景

自动驾驶视觉感知： 处理行车记录仪原始视频，实时识别潜在危险、追踪动态目标、分析路况风险，可作为自动驾驶系统的视觉感知核心
长音频内容处理： 对超过 10 小时的播客、会议录音、访谈进行完整理解与结构化摘要，无需人工分段，适合内容团队、调研人员和企业会议记录场景
跨平台浏览器 Agent： 结合 OpenClaw 等框架，控制浏览器完成跨平台多步骤任务，如跨平台比价、客服对话谈价、下单结账等复杂电商工作流，全程无需人工干预
多媒体内容生产与发布： 从内容设计、代码合成、音效生成到视频渲染、平台上传的端到端自动化工作流，适合需要批量生产和分发视频内容的团队
跨模态内容分析： 同时理解视频画面与音轨语义，分析影视蒙太奇手法、广告创意效果、教学视频内容，适合媒体研究、内容审核与创意分析场景
多模态专业文档处理： 处理包含图表、公式、图片的复杂专业文档，结合音视频材料进行综合分析，适合金融、医疗、教育等知识密集型行业

Xiaomi MiMo-V2-Omni 的产品定价

API 支持 256K 上下文长度，按 Token 计费：

计费项	价格
输入	$0.4 / 百万 tokens
输出	$2 / 百万 tokens

限时活动： 联合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 框架团队，为开发者提供为期一周的限时免费接口支持，具体信息以 MiMo 官方公众号和开放平台公告为准。

API 接入： https://platform.xiaomimimo.com

免费体验： https://aistudio.xiaomimimo.com

如何使用 Xiaomi MiMo-V2-Omni

MiMo Studio 体验： 访问 aistudio.xiaomimimo.com，免费体验多模态理解和 Agent 能力，无需 API Key
API 调用： 访问 platform.xiaomimimo.com，注册账号获取 API Key，支持图像、视频、音频、文本多模态输入
OpenClaw 接入： 在 OpenClaw 等 Agent 框架中选择 MiMo-V2-Omni 作为底层模型，可直接调用其原生工具调用和 UI 定位能力，无需额外适配

常见问题

Q：MiMo-V2-Omni 和 MiMo-V2-Pro 有什么区别？

A：核心差异在于模态支持。V2 Pro 是纯文本推理模型，支持 1M 超长上下文，专为 Agent 代码和文本任务优化，性价比极高；V2 Omni 是全模态模型，支持图像、视频、音频、文本四路输入，具备跨模态联合推理能力，上下文窗口为 262K。两者在代码和 Agent 文本任务上均有出色表现，V2 Omni 额外覆盖多媒体感知场景。

Q：V2 Omni 的音频理解能力有多强？

A：在 MMAU-Pro、BigBench-Audio 评测中超越 Gemini 3 Pro，原生支持超过 10 小时连续音频理解，覆盖环境音分类、多说话人分离、音视频联合推理等任务，是目前音频理解能力最强的全模态模型之一。

Q：图像和视频理解表现怎么样？

A：图像理解（MMMU-Pro、CharXiv RQ）超越 Claude Opus 4.6，接近 Gemini 3 顶级闭源模型水平；视频理解（VideoMME、FutureOmni）支持原生音视频联合输入，具备情境感知和未来推理能力。

Q：在 Agent 任务中的表现如何？

A：在 MM-BrowserComp、OmniGAIA、ClawEval 等多模态 Agent 评测中超越 Gemini 3 Pro 和 GPT-5.2；在 SWE-Bench Verified、GDPVal 等代码和专业生产力评测中与业界顶尖推理模型持平。

Q：上下文窗口是多少？

A：262K Token，最大输出 32,000 Token。音频方面原生支持超过 10 小时连续处理。

产品点评

亮点： MiMo-V2-Omni 最突出的设计是"感知与行动一体化训练"——不是先训练感知模型再叠加 Agent 能力，而是从第一个训练步骤就将两者统一，模型原生具备工具调用和 UI 定位能力，接入 Agent 框架无需额外适配。超过 10 小时的连续音频理解是目前公开全模态模型中的最高水位，在长音频场景几乎没有竞争对手。图像理解超越 Opus 4.6、Agent 能力超越 Gemini 3 Pro 和 GPT-5.2，同时不以牺牲代码和文本能力为代价，综合表现均衡。

Xiaomi MiMo-V2-Omni：小米全模态 Agent 基座模型，图像视频音频文本统一理解

Xiaomi MiMo-V2-Omni 是什么

Xiaomi MiMo-V2-Omni 的模型特性

Xiaomi MiMo-V2-Omni 的应用场景

Xiaomi MiMo-V2-Omni 的产品定价

如何使用 Xiaomi MiMo-V2-Omni

常见问题

产品点评

豆包 - 字节跳动旗下免费AI智能助手

ArkClaw - 火山引擎推出的云端 OpenClaw 智能体

蝉镜-AI数字人视频创作平台

星流 - LiblibAI 推出的一站式 AI 设计 Agent

AIPPT: AI一键生成高质量PPT

TRAE编程 - 字节跳动推出的AI代码助手

QoderWake - 阿里巴巴推出的生产级 AI 数字员工

SpeedAI - 专业的AIGC检测、降重降AI平台

蕉点AI - 最懂电商的全品类出图专家

IPRisk.top - 免费专业的IP纯净度检测工具

传声港 - AI 驱动的综合媒体服务平台

Hy3 preview - 腾讯混元开源的快慢思考融合的混合专家模型

Xiaomi MiMo-V2-Omni 是什么

Xiaomi MiMo-V2-Omni 的模型特性

Xiaomi MiMo-V2-Omni 的应用场景

Xiaomi MiMo-V2-Omni 的产品定价

如何使用 Xiaomi MiMo-V2-Omni

常见问题

产品点评

Xiaomi MiMo-V2-Pro：小米发布的最新旗舰 Agent 基座模型

小米 MiMo-V2-Pro 正式发布：Agent 场景超越 Sonnet 4.6，API 定价仅为同级 1/5

EasyClaw - 猎豹移动推出的 AI 助手，OpenClaw 本地化封装产品

Moltbook - 全球首个 AI Agent 社交网络，Agent 发帖互动人类围观

豆包 - 字节跳动旗下免费AI智能助手

ArkClaw - 火山引擎推出的云端 OpenClaw 智能体

蝉镜-AI数字人视频创作平台

星流 - LiblibAI 推出的一站式 AI 设计 Agent

AIPPT: AI一键生成高质量PPT

TRAE编程 - 字节跳动推出的AI代码助手

QoderWake - 阿里巴巴推出的生产级 AI 数字员工

SpeedAI - 专业的AIGC检测、降重降AI平台

蕉点AI - 最懂电商的全品类出图专家

IPRisk.top - 免费专业的IP纯净度检测工具

传声港 - AI 驱动的综合媒体服务平台

Hy3 preview - 腾讯混元开源的快慢思考融合的混合专家模型