-
Xiaomi MiMo-V2-TTS:小米语音合成大模型,自然语言控制情感风格,支持方言、角色扮演与歌声合成
Xiaomi MiMo-V2-TTS 是小米自研的语音合成大模型,基于自研 Audio Tokenizer 和多码本语音-文本联合建模架构,经超亿小时语音数据预训练与多维度强化学习。支持自然语言指令定制说话风格、多粒度情感控制、非语言声学事件生成(咳嗽、叹气、笑声)、方言、角色扮演,以及说话与唱歌统一模型,现已开放 API 接入。- 1.2k
- 0
-
Xiaomi MiMo-V2-Omni:小米全模态 Agent 基座模型,图像视频音频文本统一理解
Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型,将图像、视频、音频编码器融合进统一骨干网络,原生支持结构化工具调用、函数执行与 UI 定位。音频理解超越 Gemini 3 Pro,图像理解超越 Claude Opus 4.6,多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2,支持超过 10 小时连续音频理解,现已开放 AP…- 517
- 0
-
小米 MiMo-V2-Pro 正式发布:Agent 场景超越 Sonnet 4.6,API 定价仅为同级 1/5
2026年3月18日,小米正式发布旗舰 Agent 基座模型 Xiaomi MiMo-V2-Pro,总参数量超过 1T(激活参数 42B),支持 1M 超长上下文,采用创新 Hybrid Attention 混合注意力架构(比例 7:1),较上代 MiMo-V2-Flash 参数规模扩大约 3 倍。 在 Artificial Analysis 全球综合智能排行榜上,MiMo-V2-Pro 位列全球…- 1.4k
- 0
-
Xiaomi MiMo-V2-Pro:小米发布的最新旗舰 Agent 基座模型
Xiaomi MiMo-V2-Pro 是小米面向 Agent 时代发布的旗舰基座模型,总参数量超 1T(激活参数 42B),支持 1M 超长上下文,在 Artificial Analysis 全球综合智能榜单位列第八、国内第二。在 OpenClaw、Claude Code 等 Agent 框架中端到端任务完成能力整体超越 Sonnet 4.6,逼近 Opus 4.6,API 定价仅为同级的 1/5…- 4.3k
- 0




