MiMo-V2.5-Pro-UltraSpeed：小米发布的高速 AI Agent 推理模型

MiMo-V2.5-Pro UltraSpeed 是什么

MiMo-V2.5-Pro-UltraSpeed 是小米 MiMo 与 TileRT 联合推出的极速推理模式，通过模型与推理系统的深度 Codesign，让万亿参数（1T）旗舰模型在通用 GPU 上首次突破 1000 tokens/s 的生成速度。它在保留深度思考与流式输出能力的同时，将输出速度提升至 MiMo-V2.5-Pro 的约 10 倍，定价为其 3 倍，面向量化交易、实时风控、实时编程辅助等极致低延迟场景。目前采取申请制限时开放，通过审核的用户可接入 API 并获得限时免费的 Chat 体验。

MiMo-V2.5-Pro UltraSpeed 的主要特性

极速推理： 输出速度约 500–1000 tokens/s，约为 MiMo-V2.5-Pro（约 50–100 tokens/s）的 10 倍，官方在通用 GPU 上首次突破 1000 tokens/s。
万亿参数旗舰能力： 底层为 1T 参数的 MiMo-V2.5-Pro 旗舰模型，官方表示提速过程将模型能力保持在近乎无损的水平。
深度思考与流式输出： 保留推理（reasoning_content 思考过程）能力，支持流式输出，单次最大输出可达 131072 tokens（以官方示例为准）。
FP4 混合量化： 仅对 MoE Expert 做 FP4 量化训练（QAT），其余部分保持原精度，在压缩模型体积、榨干硬件带宽的同时尽量不损失能力。
DFlash 投机解码： 用块级 Masked 并行预测替代传统 Draft 自回归，Draft 模型采用 SWA 将预测算力降至常数级，配合 Muon 优化器与自蒸馏保证高接受率。
TileRT 系统级优化： 常驻内核引擎让计算流水线常驻 GPU 持续流转；Tile 级拆解通信、搬运与张量计算到不同线程束，构成异构协作的执行系统。
双协议 API 接入： 兼容 OpenAI 与 Anthropic 协议，模型名 mimo-v2.5-pro-ultraspeed，接入端点 api.xiaomimimo.com，已有 MiMo 用户可平滑切换。

MiMo-V2.5-Pro UltraSpeed 的应用场景

量化交易： 在突发新闻推送后毫秒级完成市场影响分析并生成交易信号，在市场波动前完成决策流。
实时风控： 在交易结算前的数百毫秒内完成复杂的欺诈推理与风险评估，兼顾实时响应与深度推理。
科学研究： 支撑大规模假设的即时生成与验证，将人机交互延迟缩短至接近实时，保障科研思维连续性。
实时编程辅助： 提供超越阅读速度的代码生成体验，复杂重构任务可在瞬间完成，减少开发等待间歇。
实时 Agent 与交互应用： 对响应延迟敏感的 Agent 工作流、实时对话与即时原型生成等场景。

MiMo-V2.5-Pro UltraSpeed 的定价

UltraSpeed 为限时体验价，约为 MiMo-V2.5-Pro 标准定价的 3 倍（每百万 tokens）：

计费项	MiMo-V2.5-Pro-UltraSpeed	MiMo-V2.5-Pro
输入（缓存命中）	¥0.075	¥0.025
输入（缓存未命中）	¥9	¥3
输出	¥18	¥6
输出速度	约 500–1000 tokens/s	约 50–100 tokens/s

仅支持 API 按量计费，不支持 Token Plan。通过申请审核的用户另可获得限时免费的 Chat 体验（两周开放窗口内有效）。以上为限时体验价，后续以官网为准。

如何使用 MiMo-V2.5-Pro UltraSpeed

提交申请： 访问 https://platform.xiaomimimo.com/ultraspeed 提交内测申请，开放窗口为 2026 年 6 月 9 日至 6 月 23 日 23:59，官方优先审核具备真实业务需求的企业与专业开发者。
接入 API： 审核通过后，以模型名 mimo-v2.5-pro-ultraspeed 调用，支持 OpenAI 协议（base_url 为 https://api.xiaomimimo.com/v1 ）与 Anthropic 协议。
Chat 体验： 通过审核的用户可在 https://ultraspeed.xiaomimimo.com 限时免费体验，每个账号每日最多成功进入队列 10 次，单次会话上限 30 分钟，空闲超过 5 分钟自动释放资源。
Playground 试用： 也可在 MiMo 开放平台 Playground 中直接体验该模型的推理速度。

常见问题

Q：UltraSpeed 是一个新模型吗？

A：不是全新模型，而是 MiMo-V2.5-Pro 的极速推理体验模式，底层仍是同一个万亿参数旗舰模型，以独立的 API 模型名提供，官方表示能力保持在近乎无损的水平。

Q：1000 tokens/s 是怎么实现的？

A：通过算法与系统的联合优化：模型侧采用 FP4 混合量化与 DFlash 投机解码，系统侧由 TileRT 提供常驻内核引擎与异构流水线协作，在通用 GPU、不定制芯片的前提下实现提速。

Q：现在可以直接付费使用吗？

A：不能直接开通。目前采取申请制限时开放（2026 年 6 月 9 日至 6 月 23 日），名额有限，官方不承诺审核时效与通过率，优先面向有真实业务需求的企业与专业开发者。

Q：UltraSpeed 比 MiMo-V2.5-Pro 贵多少？

A：限时体验价约为标准版的 3 倍：输入缓存命中 ¥0.075、未命中 ¥9、输出 ¥18（每百万 tokens），对应约 10 倍的输出速度提升，仅支持 API 按量计费。

Q：支持哪些接入协议？

A：同时兼容 OpenAI 与 Anthropic 协议，已使用 MiMo API 或 Claude Code、OpenClaw 等工具的开发者可按官方文档配置后平滑切换。

MiMo-V2.5-Pro-UltraSpeed：小米发布的高速 AI Agent 推理模型

MiMo-V2.5-Pro UltraSpeed 是什么

MiMo-V2.5-Pro UltraSpeed 的主要特性

MiMo-V2.5-Pro UltraSpeed 的应用场景

MiMo-V2.5-Pro UltraSpeed 的定价

如何使用 MiMo-V2.5-Pro UltraSpeed

常见问题

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

千问办公 - 阿里推出的一站式 AI Agent 办公平台，把任务做完并交付产物

妙呀 - 阿里推出的潮玩创作者 AI 设计平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Qwen-Image-3.0：通义千问推出的第三代图像生成基础模型

Qwen-Audio-3.0-TTS：阿里推出的新一代实时语音合成大模型

切问学术 - 复旦出品的学术版 Codex，从找 idea 到跑实验，一句话全自动

MiMo-V2.5-Pro UltraSpeed 是什么

MiMo-V2.5-Pro UltraSpeed 的主要特性

MiMo-V2.5-Pro UltraSpeed 的应用场景

MiMo-V2.5-Pro UltraSpeed 的定价

如何使用 MiMo-V2.5-Pro UltraSpeed

常见问题

MiMo-V2.5 - 小米开源的原生多模态 Agent 大模型，支持百万上下文

MiMo-V2.5-Pro - 小米开源的旗舰级 Agent 与软件工程大模型

小米 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%

Claude Opus 4.8 - Anthropic旗舰AI模型，支持复杂编码与长程Agent任务

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

千问办公 - 阿里推出的一站式 AI Agent 办公平台，把任务做完并交付产物

妙呀 - 阿里推出的潮玩创作者 AI 设计平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Qwen-Image-3.0：通义千问推出的第三代图像生成基础模型

Qwen-Audio-3.0-TTS：阿里推出的新一代实时语音合成大模型

切问学术 - 复旦出品的学术版 Codex，从找 idea 到跑实验，一句话全自动