Step-Audio-2-mini：阶跃星辰开源的端到端语音大模型

Step-Audio-2-mini 是什么？

Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型，采用统一架构实现语音理解、推理与生成，支持语音识别、跨语种翻译、情感解析与自然对话。在多个国际基准测试中取得 SOTA 成绩，并率先具备语音原生 Tool Calling 能力，综合性能超越同类开源模型和 GPT-4o Audio，现已在 GitHub、Hugging Face 和 ModelScope 开源。

Step-Audio-2-mini 的主要特性

先进的语音和音频理解：通过理解并推理语义信息、副语言信息和非语音信息，在自动语音识别（ASR）和音频理解方面表现出色。
智能语音对话：实现自然且智能的交互，适用于各种对话场景和副语言信息。
工具调用和多模态检索增强生成（RAG）：通过利用工具调用和 RAG 访问现实世界知识（包括文本和声学），Step-Audio 2 可以在多种场景下生成较少幻觉的响应，并且还能够根据检索到的语音切换音色。
最先进性能：在各种音频理解和对话基准测试中，与其它开源和商业解决方案相比，Step-Audio 2 达到了最先进的性能。
开源：Step-Audio 2 mini 和 Step-Audio 2 mini Base 在 Apache 2.0 许可下发布。

Step-Audio-2-mini 的模型评测

Step-Audio 2 mini 在多个关键基准测试中取得 SOTA 成绩，在音频理解、语音识别、翻译和对话场景中表现突出，综合性能超越 Qwen-Omni 、Kimi-Audio 在内的所有开源端到端语音模型，并在大部分任务上超越 GPT-4o Audio。

Step-Audio-2-mini 的相关资源

Step-Audio 2 mini 模型现已上线 GitHub、Hugging Face 等平台，也已上线阶跃星辰开放平台。

体验地址：https://realtime-console.stepfun.com
GitHub：https://github.com/stepfun-ai/Step-Audio2
模型地址：
- Hugging Face：https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- ModelScope：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
技术报告：https://arxiv.org/abs/2507.16632

Step-Audio-2-mini：阶跃星辰开源的端到端语音大模型

Step-Audio-2-mini 是什么？

Step-Audio-2-mini 的主要特性

Step-Audio-2-mini 的模型评测

Step-Audio-2-mini 的相关资源

Xiaomi miclaw - 小米推出的移动端类OpenClaw产品，探索手机从对话助手走向系统级执行

Lynote - 一站式 AI 学习助手，支持内容摘要、AI 检测与视频转录处理

GPT-5.4 - OpenAI 新一代专业工作模型，擅长知识工作、编码与计算机操作

GetDraft - 得到推出的多 AI 角色协作写作平台，从构思到初稿一站搞定

Typeless - AI 智能语音输入工具，说话即写作，速度比打字快 4 倍

Pencil - AI 原生设计工具，在 IDE 中完成从设计到代码的一站式交付

WorkBuddy - 腾讯云推出的 AI 原生桌面智能体工作台

Molili(莫哩哩) - 当贝推出的OpenClaw类 AI 智能体桌面应用，支持一键安装部署

EasyClaw - 猎豹移动推出的 AI 助手，OpenClaw 本地化封装产品

Kimi Claw -月之暗面推出的云端化 OpenClaw 产品

QoderWork - 阿里巴巴推出的桌面级通用智能体助手

CoPaw - 阿里云开源的可本地可云端部署的个人AI助理

MaxClaw - MiniMax推出的基于 OpenClaw 构建的云端 AI 智能助手

Tabbit 浏览器 - 美团光年之外推出的AI原生浏览器

OpenClaw：开源免费的个人AI助手，帮你自动执行各项任务

Step-Audio-2-mini 是什么？

Step-Audio-2-mini 的主要特性

Step-Audio-2-mini 的模型评测

Step-Audio-2-mini 的相关资源

灵医Bot：百度旗下医疗健康AI大模型

新壹视频大模型

Qwen-MT：阿里通义千问推出的机器翻译模型，支持92种语言互译

LongCat-Flash-Chat：美团推出的开源大语言模型

Xiaomi miclaw - 小米推出的移动端类OpenClaw产品，探索手机从对话助手走向系统级执行

Lynote - 一站式 AI 学习助手，支持内容摘要、AI 检测与视频转录处理

GPT-5.4 - OpenAI 新一代专业工作模型，擅长知识工作、编码与计算机操作

GetDraft - 得到推出的多 AI 角色协作写作平台，从构思到初稿一站搞定

Typeless - AI 智能语音输入工具，说话即写作，速度比打字快 4 倍

Pencil - AI 原生设计工具，在 IDE 中完成从设计到代码的一站式交付

WorkBuddy - 腾讯云推出的 AI 原生桌面智能体工作台

Molili(莫哩哩) - 当贝推出的OpenClaw类 AI 智能体桌面应用，支持一键安装部署

EasyClaw - 猎豹移动推出的 AI 助手，OpenClaw 本地化封装产品

Kimi Claw -月之暗面推出的云端化 OpenClaw 产品

QoderWork - 阿里巴巴推出的桌面级通用智能体助手

CoPaw - 阿里云开源的可本地可云端部署的个人AI助理

MaxClaw - MiniMax推出的基于 OpenClaw 构建的云端 AI 智能助手

Tabbit 浏览器 - 美团光年之外推出的AI原生浏览器

OpenClaw：开源免费的个人AI助手，帮你自动执行各项任务