即梦AI视频
当前位置:首页>AI模型>Gemini 3.5 Live Translate:Google 发布的新一代实时语音互译模型,支持 70 多种语言

Gemini 3.5 Live Translate:Google 发布的新一代实时语音互译模型,支持 70 多种语言

Gemini 3.5 Live Translate 是什么

Gemini 3.5 Live Translate 是 Google 面向实时跨语言交流推出的音频模型,专门用于 speech-to-speech translation,也就是把一种语言的语音实时转换成另一种语言的语音。与传统“说完一句再翻译一句”的轮流式翻译不同,它会在音频流输入过程中持续处理内容,在“等待更多上下文以提高翻译质量”和“尽快输出以跟上说话节奏”之间取得平衡,让翻译语音只比原始说话内容慢几秒。

gemini-3-5-live-translate

Gemini 3.5 Live Translate 的模型特性

  • 实时语音到语音翻译:支持低延迟音频到音频翻译,可把输入语音实时转换为目标语言语音。
  • 支持 70+ 语言:模型可自动识别 70 多种语言,减少用户手动切换语言的操作。
  • 连续流式输出:不是等待完整句子结束后再翻译,而是在说话过程中连续生成翻译语音,使对话更接近实时同传体验。
  • 保留语音特征:Google 官方称模型会尽量保留说话者的语调、语速和音高,让译文语音听起来更自然。
  • 复杂环境适应:模型具备一定抗噪能力,面向会议、通话、课堂、直播、广播等更真实的声音环境。
  • SynthID 音频水印:Google 表示由模型生成的音频会嵌入 SynthID 水印,用于帮助识别 AI 生成音频。

Gemini 3.5 Live Translate 的能力边界

  • 不是通用聊天模型:Gemini API 文档将其定位为实时翻译音频模型,输入为语音音频,输出为翻译语音和转录文本,不支持代码执行、函数调用、文件搜索、结构化输出、搜索增强等通用模型能力。
  • 当前仍是 Preview 模型:开发者文档中的模型版本为 gemini-3.5-live-translate-preview,说明它目前仍处于预览阶段。
  • 更适合实时沟通,不适合长文档翻译:它的核心场景是语音会话、会议、课程和直播等实时音频场景;如果是文档、网页或批量文本翻译,Google Cloud Translation 等服务会更匹配。
  • 实际体验受设备和环境影响:实时语音翻译通常会受到麦克风质量、背景噪声、网络延迟、说话速度和口音等因素影响,这一点在真实使用中仍需要关注。

Gemini 3.5 Live Translate 的适用场景

  • 跨语言会议:适合多语种线上会议、国际团队沟通和跨国协作。
  • 实时通话翻译:可用于客服、出行、网约车、远程协作等需要即时沟通的场景。
  • 课堂和讲座:适合将外语课程、演讲或培训内容实时翻译成目标语言。
  • 直播和广播:适合为直播、播客、活动转播提供实时多语种音频翻译。
  • 旅行和线下交流:普通用户可通过 Google Translate App 在 Android 和 iOS 上使用,连接耳机后获得实时翻译体验。

Gemini 3.5 Live Translate 的API价格

Gemini API 价格页显示,gemini-3.5-live-translate-preview 免费层可免费使用;付费层价格为输入 3.50 美元 / 百万 tokens,输出 21.00 美元 / 百万 tokens,也可按音频分钟折算,输入约 0.0053 美元 / 分钟,输出约 0.0315 美元 / 分钟。Google 说明音频计费按每秒 25 tokens 计算,输入与输出合计的有效价格约为 0.0368 美元 / 分钟。

如何使用Gemini 3.5 Live Translate

  • 普通用户:可通过 AndroidiOS 版 Google Translate 使用 Live translate 功能,连接任意耳机后体验 70 多种语言的实时语音翻译。
  • Android 用户:Google 还在推出新的 listening mode,可像接电话一样把手机贴近耳边,通过听筒收听翻译音频。
  • 开发者:可通过 Gemini Live APIGoogle AI Studio 使用公开预览版,模型 ID 为 gemini-3.5-live-translate-preview
  • 企业用户Google Meet 将面向部分 Google Workspace 企业客户提供私有预览版,后续会扩大到更多用户。

Gemini 3.5 Live Translate 的官方资源

常见问题

Q:Gemini 3.5 Live Translate 是什么模型?
A:它是 Google 推出的低延迟实时语音到语音翻译模型,面向跨语言对话、会议、课程、直播和通话等场景。

Q:它支持多少种语言?
A:Google 官方表示支持 70 多种语言,并可自动识别多语言输入。

Q:它和普通 Google 翻译有什么区别?
A:普通翻译更多面向文本、拍照、网页和非实时语音翻译;Gemini 3.5 Live Translate 面向实时语音互译,可以在说话过程中连续生成翻译语音。

Q:开发者可以调用吗?
A:可以。开发者可通过 Gemini Live API 和 Google AI Studio 使用公开预览版,模型 ID 为 gemini-3.5-live-translate-preview

Q:它是否支持文字输出?
A:支持。Gemini API 文档显示,该模型输入为语音音频,输出包括翻译语音和转录文本。

AIHub点评

Gemini 3.5 Live Translate 的重点不在于“又多了一个翻译工具”,而是把实时语音互译从传统的“识别—翻译—合成”体验,进一步推向更接近同声传译的连续语音流体验。它支持 70 多种语言、可保留语音特征,并同时接入 Google Translate、Google Meet 和 Gemini Live API,说明 Google 希望把这一能力同时覆盖普通用户、企业会议和开发者生态。

对普通用户来说,它的价值在旅行、跨语言沟通和外语内容理解;对开发者和企业来说,它更适合作为实时通话、会议系统、在线教育、直播翻译和国际客服场景中的底层能力。需要注意的是,它目前仍是 Preview 模型,且主要面向实时音频场景,不应简单替代传统文本翻译或专业文档翻译流程。

豆包AI助手
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。