Gemini 3.5 Live Translate：Google 发布的新一代实时语音互译模型，支持 70 多种语言

Gemini 3.5 Live Translate 是什么

Gemini 3.5 Live Translate 是 Google 面向实时跨语言交流推出的音频模型，专门用于 speech-to-speech translation，也就是把一种语言的语音实时转换成另一种语言的语音。与传统“说完一句再翻译一句”的轮流式翻译不同，它会在音频流输入过程中持续处理内容，在“等待更多上下文以提高翻译质量”和“尽快输出以跟上说话节奏”之间取得平衡，让翻译语音只比原始说话内容慢几秒。

Gemini 3.5 Live Translate 的模型特性

实时语音到语音翻译：支持低延迟音频到音频翻译，可把输入语音实时转换为目标语言语音。
支持 70+ 语言：模型可自动识别 70 多种语言，减少用户手动切换语言的操作。
连续流式输出：不是等待完整句子结束后再翻译，而是在说话过程中连续生成翻译语音，使对话更接近实时同传体验。
保留语音特征：Google 官方称模型会尽量保留说话者的语调、语速和音高，让译文语音听起来更自然。
复杂环境适应：模型具备一定抗噪能力，面向会议、通话、课堂、直播、广播等更真实的声音环境。
SynthID 音频水印：Google 表示由模型生成的音频会嵌入 SynthID 水印，用于帮助识别 AI 生成音频。

Gemini 3.5 Live Translate 的能力边界

不是通用聊天模型：Gemini API 文档将其定位为实时翻译音频模型，输入为语音音频，输出为翻译语音和转录文本，不支持代码执行、函数调用、文件搜索、结构化输出、搜索增强等通用模型能力。
当前仍是 Preview 模型：开发者文档中的模型版本为 gemini-3.5-live-translate-preview，说明它目前仍处于预览阶段。
更适合实时沟通，不适合长文档翻译：它的核心场景是语音会话、会议、课程和直播等实时音频场景；如果是文档、网页或批量文本翻译，Google Cloud Translation 等服务会更匹配。
实际体验受设备和环境影响：实时语音翻译通常会受到麦克风质量、背景噪声、网络延迟、说话速度和口音等因素影响，这一点在真实使用中仍需要关注。

Gemini 3.5 Live Translate 的适用场景

跨语言会议：适合多语种线上会议、国际团队沟通和跨国协作。
实时通话翻译：可用于客服、出行、网约车、远程协作等需要即时沟通的场景。
课堂和讲座：适合将外语课程、演讲或培训内容实时翻译成目标语言。
直播和广播：适合为直播、播客、活动转播提供实时多语种音频翻译。
旅行和线下交流：普通用户可通过 Google Translate App 在 Android 和 iOS 上使用，连接耳机后获得实时翻译体验。

Gemini 3.5 Live Translate 的API价格

Gemini API 价格页显示，gemini-3.5-live-translate-preview 免费层可免费使用；付费层价格为输入 3.50 美元 / 百万 tokens，输出 21.00 美元 / 百万 tokens，也可按音频分钟折算，输入约 0.0053 美元 / 分钟，输出约 0.0315 美元 / 分钟。Google 说明音频计费按每秒 25 tokens 计算，输入与输出合计的有效价格约为 0.0368 美元 / 分钟。

如何使用Gemini 3.5 Live Translate

普通用户：可通过 Android 和 iOS 版 Google Translate 使用 Live translate 功能，连接任意耳机后体验 70 多种语言的实时语音翻译。
Android 用户：Google 还在推出新的 listening mode，可像接电话一样把手机贴近耳边，通过听筒收听翻译音频。
开发者：可通过 Gemini Live API 或 Google AI Studio 使用公开预览版，模型 ID 为 gemini-3.5-live-translate-preview。
企业用户：Google Meet 将面向部分 Google Workspace 企业客户提供私有预览版，后续会扩大到更多用户。

Gemini 3.5 Live Translate 的官方资源

Google 官方发布博客：Fluid, natural voice translation with Gemini 3.5 Live Translate。
Gemini Live API 实时翻译文档：Live translation with Gemini Live API。
Gemini 3.5 Live Translate 模型文档：包含模型 ID、输入输出、token 限制和能力说明。
Gemini API 价格文档：包含该模型的免费层、付费层和音频计费方式。

常见问题

Q：Gemini 3.5 Live Translate 是什么模型？
A：它是 Google 推出的低延迟实时语音到语音翻译模型，面向跨语言对话、会议、课程、直播和通话等场景。

Q：它支持多少种语言？
A：Google 官方表示支持 70 多种语言，并可自动识别多语言输入。

Q：它和普通 Google 翻译有什么区别？
A：普通翻译更多面向文本、拍照、网页和非实时语音翻译；Gemini 3.5 Live Translate 面向实时语音互译，可以在说话过程中连续生成翻译语音。

Q：开发者可以调用吗？
A：可以。开发者可通过 Gemini Live API 和 Google AI Studio 使用公开预览版，模型 ID 为 gemini-3.5-live-translate-preview。

Q：它是否支持文字输出？
A：支持。Gemini API 文档显示，该模型输入为语音音频，输出包括翻译语音和转录文本。

AIHub点评

Gemini 3.5 Live Translate 的重点不在于“又多了一个翻译工具”，而是把实时语音互译从传统的“识别—翻译—合成”体验，进一步推向更接近同声传译的连续语音流体验。它支持 70 多种语言、可保留语音特征，并同时接入 Google Translate、Google Meet 和 Gemini Live API，说明 Google 希望把这一能力同时覆盖普通用户、企业会议和开发者生态。

对普通用户来说，它的价值在旅行、跨语言沟通和外语内容理解；对开发者和企业来说，它更适合作为实时通话、会议系统、在线教育、直播翻译和国际客服场景中的底层能力。需要注意的是，它目前仍是 Preview 模型，且主要面向实时音频场景，不应简单替代传统文本翻译或专业文档翻译流程。

Gemini 3.5 Live Translate：Google 发布的新一代实时语音互译模型，支持 70 多种语言

Gemini 3.5 Live Translate 是什么

Gemini 3.5 Live Translate 的模型特性

Gemini 3.5 Live Translate 的能力边界

Gemini 3.5 Live Translate 的适用场景

Gemini 3.5 Live Translate 的API价格

如何使用Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 的官方资源

常见问题

AIHub点评

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Qwen-Image-3.0：通义千问推出的第三代图像生成基础模型

Qwen-Audio-3.0-TTS：阿里推出的新一代实时语音合成大模型

切问学术 - 复旦出品的学术版 Codex，从找 idea 到跑实验，一句话全自动

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

Gemini 3.5 Live Translate 是什么

Gemini 3.5 Live Translate 的模型特性

Gemini 3.5 Live Translate 的能力边界

Gemini 3.5 Live Translate 的适用场景

Gemini 3.5 Live Translate 的API价格

如何使用Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 的官方资源

常见问题

AIHub点评

Qwen3.5-LiveTranslate - 阿里通义千问推出的多语言实时同传模型

VideoPoet：Google发布的用于视频生成的大语言模型

Veo - Google推出的视频模型，可生成1分钟1080p视频

Imagen 3：谷歌推出的高质量文本到图像生成模型

豆包 - 字节跳动旗下免费AI智能助手

Updream - B站推出的专业级 AI 视频创作平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

TRAE编程 - 字节跳动推出的AI代码助手

笔灵AI论文写作 - 专业AI论文写作平台

Claude Opus 5 - Anthropic 推出的新一代 Opus 旗舰模型

Qwen-Image-3.0：通义千问推出的第三代图像生成基础模型

Qwen-Audio-3.0-TTS：阿里推出的新一代实时语音合成大模型

切问学术 - 复旦出品的学术版 Codex，从找 idea 到跑实验，一句话全自动

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具