全部标签

音频模型

Gemini 3.5 Live Translate：Google 发布的新一代实时语音互译模型，支持 70 多种语言

Gemini 3.5 Live Translate 是 Google 发布的新一代实时语音互译模型，主打低延迟语音到语音翻译。该模型可自动识别 70 多种语言，在说话者持续讲话时同步生成翻译语音，并尽量保留原说话者的语调、语速和音高。它已开始接入 Google Translate、Gemini Live API、Google AI Studio 和 Google Meet 等产品，适合跨语言通话、…
AI模型
- 743
- 0
AIHub6月10日
Kimi-Audio：Kimi开源的通用音频基础模型，支持语音识别、音频理解等多种任务

Kimi-Audio是kimi开源的全新通用音频基础模型，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的 (SOTA) 性能。
AI模型
- 6.3k
- 0
AIHub25年4月27日