-
Gemini 3.5 Live Translate:Google 发布的新一代实时语音互译模型,支持 70 多种语言
Gemini 3.5 Live Translate 是 Google 发布的新一代实时语音互译模型,主打低延迟语音到语音翻译。该模型可自动识别 70 多种语言,在说话者持续讲话时同步生成翻译语音,并尽量保留原说话者的语调、语速和音高。它已开始接入 Google Translate、Gemini Live API、Google AI Studio 和 Google Meet 等产品,适合跨语言通话、…- 743
- 0
-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
Kimi-Audio是kimi开源的全新通用音频基础模型,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。- 6.3k
- 0



