Speech 02：MiniMax 推出的新一代语音TTS模型，支持高质量多语种语音合成

MiniMax-Speech-02 是什么？

MiniMax-Speech-02 是 MiniMax 推出的新一代高质量、多语种、个性化语音合成TTS模型。该模型基于 AR Transformer 架构，融合创新的可学习音色提取器（Learnable Speaker Encoder），具备 Zero-shot 文本转语音能力，支持 32种语言和任意音色、情绪、口音的组合合成，是一款面向全球用户、强调自然听感与个性化表达的旗舰语音生成系统。

Speech 02：MiniMax 推出的新一代语音TTS模型，支持高质量多语种语音合成

MiniMax Speech 02的功能亮点

Zero-shot 音色克隆：只需一段参考音频，无需文本，即可生成高度拟真的个性化语音。
多语种与多风格支持：支持32种语言与多种情绪风格，实现全球化多样语音输出。
个性化语音生成：可按文本描述或样音定制声音，实现角色扮演、主播仿声等用途。
领先的语音质量：采用Flow-VAE等先进架构，生成更自然流畅、细节丰富的语音。
全球测评双榜第一：在两个国际TTS测评平台中综合表现优于OpenAI与ElevenLabs。
生成成本更低：价格远低于同类产品，适合大规模部署与商业化落地。

MiniMax Speech 02的性能评测

在两项全球权威语音基准测评榜单：Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中， MiniMax Speech（在榜中对应为Speech-02-HD）超越了OpenAI、ElevenLabs 等全球性能优异的模型，双双位列第一。

在专业指标测评外，Arena 榜单的 ELO 评分，是根据用户在随机听取并比较不同模型的语音样本时，选出更优的结果来得出的；榜单结果证明，从用户体验上， MiniMax Speech 02 的听感更加优异。