MiMo-V2.5-Pro UltraSpeed 是什么
MiMo-V2.5-Pro-UltraSpeed 是小米 MiMo 与 TileRT 联合推出的极速推理模式,通过模型与推理系统的深度 Codesign,让万亿参数(1T)旗舰模型在通用 GPU 上首次突破 1000 tokens/s 的生成速度。它在保留深度思考与流式输出能力的同时,将输出速度提升至 MiMo-V2.5-Pro 的约 10 倍,定价为其 3 倍,面向量化交易、实时风控、实时编程辅助等极致低延迟场景。目前采取申请制限时开放,通过审核的用户可接入 API 并获得限时免费的 Chat 体验。

MiMo-V2.5-Pro UltraSpeed 的主要特性
- 极速推理: 输出速度约 500–1000 tokens/s,约为 MiMo-V2.5-Pro(约 50–100 tokens/s)的 10 倍,官方在通用 GPU 上首次突破 1000 tokens/s。
- 万亿参数旗舰能力: 底层为 1T 参数的 MiMo-V2.5-Pro 旗舰模型,官方表示提速过程将模型能力保持在近乎无损的水平。
- 深度思考与流式输出: 保留推理(reasoning_content 思考过程)能力,支持流式输出,单次最大输出可达 131072 tokens(以官方示例为准)。
- FP4 混合量化: 仅对 MoE Expert 做 FP4 量化训练(QAT),其余部分保持原精度,在压缩模型体积、榨干硬件带宽的同时尽量不损失能力。
- DFlash 投机解码: 用块级 Masked 并行预测替代传统 Draft 自回归,Draft 模型采用 SWA 将预测算力降至常数级,配合 Muon 优化器与自蒸馏保证高接受率。
- TileRT 系统级优化: 常驻内核引擎让计算流水线常驻 GPU 持续流转;Tile 级拆解通信、搬运与张量计算到不同线程束,构成异构协作的执行系统。
- 双协议 API 接入: 兼容 OpenAI 与 Anthropic 协议,模型名
mimo-v2.5-pro-ultraspeed,接入端点 api.xiaomimimo.com,已有 MiMo 用户可平滑切换。
MiMo-V2.5-Pro UltraSpeed 的应用场景
- 量化交易: 在突发新闻推送后毫秒级完成市场影响分析并生成交易信号,在市场波动前完成决策流。
- 实时风控: 在交易结算前的数百毫秒内完成复杂的欺诈推理与风险评估,兼顾实时响应与深度推理。
- 科学研究: 支撑大规模假设的即时生成与验证,将人机交互延迟缩短至接近实时,保障科研思维连续性。
- 实时编程辅助: 提供超越阅读速度的代码生成体验,复杂重构任务可在瞬间完成,减少开发等待间歇。
- 实时 Agent 与交互应用: 对响应延迟敏感的 Agent 工作流、实时对话与即时原型生成等场景。
MiMo-V2.5-Pro UltraSpeed 的定价
UltraSpeed 为限时体验价,约为 MiMo-V2.5-Pro 标准定价的 3 倍(每百万 tokens):
| 计费项 | MiMo-V2.5-Pro-UltraSpeed | MiMo-V2.5-Pro |
|---|---|---|
| 输入(缓存命中) | ¥0.075 | ¥0.025 |
| 输入(缓存未命中) | ¥9 | ¥3 |
| 输出 | ¥18 | ¥6 |
| 输出速度 | 约 500–1000 tokens/s | 约 50–100 tokens/s |
仅支持 API 按量计费,不支持 Token Plan。通过申请审核的用户另可获得限时免费的 Chat 体验(两周开放窗口内有效)。以上为限时体验价,后续以官网为准。
如何使用 MiMo-V2.5-Pro UltraSpeed
- 提交申请: 访问 https://platform.xiaomimimo.com/ultraspeed 提交内测申请,开放窗口为 2026 年 6 月 9 日至 6 月 23 日 23:59,官方优先审核具备真实业务需求的企业与专业开发者。
- 接入 API: 审核通过后,以模型名
mimo-v2.5-pro-ultraspeed调用,支持 OpenAI 协议(base_url 为 https://api.xiaomimimo.com/v1 )与 Anthropic 协议。 - Chat 体验: 通过审核的用户可在 https://ultraspeed.xiaomimimo.com 限时免费体验,每个账号每日最多成功进入队列 10 次,单次会话上限 30 分钟,空闲超过 5 分钟自动释放资源。
- Playground 试用: 也可在 MiMo 开放平台 Playground 中直接体验该模型的推理速度。
常见问题
Q:UltraSpeed 是一个新模型吗?
A:不是全新模型,而是 MiMo-V2.5-Pro 的极速推理体验模式,底层仍是同一个万亿参数旗舰模型,以独立的 API 模型名提供,官方表示能力保持在近乎无损的水平。
Q:1000 tokens/s 是怎么实现的?
A:通过算法与系统的联合优化:模型侧采用 FP4 混合量化与 DFlash 投机解码,系统侧由 TileRT 提供常驻内核引擎与异构流水线协作,在通用 GPU、不定制芯片的前提下实现提速。
Q:现在可以直接付费使用吗?
A:不能直接开通。目前采取申请制限时开放(2026 年 6 月 9 日至 6 月 23 日),名额有限,官方不承诺审核时效与通过率,优先面向有真实业务需求的企业与专业开发者。
Q:UltraSpeed 比 MiMo-V2.5-Pro 贵多少?
A:限时体验价约为标准版的 3 倍:输入缓存命中 ¥0.075、未命中 ¥9、输出 ¥18(每百万 tokens),对应约 10 倍的输出速度提升,仅支持 API 按量计费。
Q:支持哪些接入协议?
A:同时兼容 OpenAI 与 Anthropic 协议,已使用 MiMo API 或 Claude Code、OpenClaw 等工具的开发者可按官方文档配置后平滑切换。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

