Xiaomi MiMo-V2-TTS 是什么
Xiaomi MiMo-V2-TTS 是小米 MiMo 团队发布的语音合成大模型,基于自研 MiMo Audio Tokenizer 和多码本语音-文本联合建模架构,经超过 1 亿小时语音数据大规模预训练,并通过多维度强化学习进一步优化韵律、音质、字词准确率和音色克隆效果。模型支持从整体风格定调到局部情绪表达的多粒度控制,能在同一句话内完成语气转折和情感递变。除标准语音合成外,同一模型原生支持方言(东北话、粤语、四川话等)、角色扮演(孙悟空、林黛玉等)和歌声合成,是目前已知唯一将说话与唱歌统一在同一 TTS 模型中的商业 API。
Xiaomi MiMo-V2-TTS 的模型特性
- 自然语言风格指令: 用自然语言描述想要的声音风格,模型自动映射为对应音频特征,无需预设情感标签,支持任意粒度的描述,如"困倦刚醒略带沙哑"或"激昂慷慨如演讲",组合描述同样有效
- 多粒度情感控制: 支持整体语音基调设定与局部片段细粒度情感调节,可在同一句话内实现语气转折与情感递变,从全局定调到局部雕刻一气呵成
- 非语言声学事件生成: 原生生成咳嗽、停顿、犹豫填充词(嗯……啊……)、叹气、笑声等副语言事件,作为语音输出的自然组成部分而非后期拼接,位置和音色符合上下文语境
- 强大文本理解能力: 自动解读全大写、字符重复、标点符号等排版信号并映射为韵律特征;同时能从文本语义内容直接推断说话风格,无需额外指令,问句自动上扬,愤怒片段自动变得短促有力
- 方言与角色扮演: 支持东北话、四川话、河南话、粤语、台湾腔等多种方言;支持角色化风格演绎,同一接口处理
- 歌声合成: 同一模型原生支持歌声合成,准确表达音高和节奏,无需切换模型或模式,据官方介绍为目前唯一将说话与唱歌统一在同一商业 TTS API 中的模型
- 多码本高保真架构: 基于自研多层码本架构在高保真离散 token 空间建模,充分保留原始语音信息,使强化学习阶段的多维奖励信号能直接作用于生成过程
Xiaomi MiMo-V2-TTS 的应用场景
- Agent 语音交互: 为 OpenClaw 等 Agent 框架提供语音输出能力,让 Agent 在完成任务后以自然、有情感的声音反馈结果,替代机械的 TTS 播报
- 有声内容生产: 将文章、小说、剧本转化为高质量有声内容,支持多角色、多情感的差异化演绎,适合播客、有声书、短视频配音等场景
- 语音助手与客服: 构建具备情感感知能力的语音助手,根据对话内容自动调整语气,提升用户体验,适合智能客服、情感陪伴类产品
- 教育与语言学习: 生成方言示范、标准普通话朗读或角色化情景对话,用于语言教学、口语练习、文化内容制作
- 影视与游戏配音: 利用角色扮演和情感控制能力,为游戏 NPC、动漫角色或短片人物生成符合设定的个性化声音,降低配音成本
- 歌声与音乐内容: 在无需独立歌声合成模型的情况下生成歌声片段,适合 AIGC 音乐创作、短视频背景人声等场景
如何使用 Xiaomi MiMo-V2-TTS
- API 调用: 访问 platform.xiaomimimo.com,注册账号获取 API Key,按文档接入 TTS 接口,输入文本和风格描述即可生成语音
- Agent 集成: 在 OpenClaw 等 Agent 框架中将 MiMo-V2-TTS 配置为语音输出模块,Agent 执行完任务后自动调用 TTS 生成语音反馈
常见问题
Q:MiMo-V2-TTS 和市面上其他 TTS 产品最大的区别是什么?
A:三点核心差异:一是自然语言风格指令,不需要从下拉菜单选情感标签,用文字描述想要的声音即可;二是非语言声学事件(咳嗽、叹气等)原生生成而非后期拼接;三是说话与唱歌统一在同一模型中,无需切换。
Q:支持哪些方言?
A:目前支持东北话、四川话、河南话、粤语、台湾腔,后续计划扩展更多语种和方言覆盖。
Q:歌声合成效果怎么样?
A:官方展示了多首中文流行歌曲示例,音高和节奏准确,自然度较高。由于说话与唱歌共用同一模型,无需额外配置,直接通过风格描述或歌词输入即可触发。
Q:MiMo-V2-TTS 后续会和 V2 Omni 整合吗?
A:官方路线图明确了将与 MiMo-V2-Omni 深度融合,实现 Agent 既能看懂世界又能以富有表现力的声音讲述世界,具体时间以官方公告为准。
Q:支持音色克隆吗?
A:支持,官方在强化学习优化目标中明确列出了"更高质量的音色克隆",具体接口参数以 API 文档为准。
产品点评
亮点: MiMo-V2-TTS 最突出的差异点是"自然语言风格指令"——用文字描述声音而非选标签,组合描述也能准确还原(如"愤怒但努力克制"和单纯"愤怒"会产生可测量的不同输出)。非语言声学事件的原生生成是目前国内 TTS 产品中极少见的能力,大幅提升了语音的真实感。说话与唱歌统一模型在商业 TTS API 中是首创,对音乐和内容创作场景有直接价值。基于超亿小时预训练数据和多维度强化学习的技术底座,稳定性和泛化能力有保障。


