Qwen3.5-LiveTranslate - 阿里通义千问推出的多语言实时同传模型

Qwen3.5-LiveTranslate 是什么

Qwen3.5-LiveTranslate-Flash 是阿里云通义千问团队发布的新一代多语言实时音视频同声传译模型，基于 Qwen3.5-Omni Thinker-Talker 架构打造。模型针对实时同传场景的三大痛点——延迟、语种覆盖、音色自然度——做了全面突破：支持 60 种语言的音频输入与文字输出、29 种语言的音频输出，端到端字均延迟降至 2.8 秒，并支持实时音色克隆让翻译后仍保留说话人的原声特征。相比前代 Qwen3-LiveTranslate-Flash（18 种语言、3 秒延迟、无音色克隆），实现了语种覆盖、延迟、音色自然度的全面进阶。在 FLEURS、CoVoST2 等公开多语言语音翻译基准上，翻译准确率优于当前主流语音大模型。

Qwen3.5-LiveTranslate 的主要特性

多语种覆盖升级：输入音频和输出文本语种从前代 18 种提升至 60 种，输出音频语种从 10 种提升至 29 种，覆盖更多国家与区域的语言互译组合。
超低延迟：引入全新 Readable Unit（可读单元）实时翻译技术，在保证译文可读性与语义连贯的前提下实现更激进的流式输出，相比前代首字延迟降低 3.45 秒、字均延迟降低 1.88 秒，翻译质量几乎无损。
实时音色克隆： 支持 Real-time Voice Cloning（动态跨语言音色克隆），在同传过程中自动捕捉并复刻说话人音色特征，译文在不同语言间保持"同一个人"的声音质感与情绪表现力，大幅提升主播、嘉宾、主持人的身份一致性与沉浸感。
热词增强：内置 Hotword 引擎，最高支持 1000 个自定义词条，对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译，支持场景动态配置与实时更新。
视觉消歧辅助： 继承前代视觉增强能力，在语境模糊时自动引入视觉信息辅助判断，降低"一词多义"导致的翻译歧义。
复杂场景稳定发挥： 经过高频实战环境验证——多语混说 / 复杂口音会议、直播带货数字与规格精准翻译、古文 / 文化内容同传、智能硬件（千问 AI 眼镜）落地实测均表现稳定。
Benchmark 领先： 在 FLEURS、CoVoST2 等公开多语言语音翻译基准上，翻译准确率优于当前主流语音大模型，显著优于前代 Qwen3-LiveTranslate-Flash。

Qwen3.5-LiveTranslate 的应用场景

跨国会议同声传译： 多语种交替发言的商务会议、业绩电话会议、行业峰会等场景下的实时同传，音色克隆让每位发言人保持声音身份一致性。
跨境直播带货： 主播用母语直播，实时翻译为目标市场语言并保留原声特征，商品参数、价格、折扣数字翻译准确率极高。
内容出海与影视配音： 影视内容、短视频、课程等音视频的多语言配音，音色克隆减少"机器感"，保留原始表演的情绪表现力。
智能硬件落地： 搭配千问 AI 眼镜等终端设备，出境旅游、实地沟通场景下语音交互 + 实时同传无缝衔接。
技术发布会与行业会议： 通过热词引擎预设专有名词和术语，确保医疗、法律、金融、科技等专业会议的术语翻译准确性。
企业内训与在线教育： 跨语言培训、远程课堂的实时字幕与同传，降低多语言团队的沟通障碍。
出境旅游与跨方言沟通： 覆盖 60 种语言满足出境需求，未来有望扩展更多方言支持。

Qwen3.5-LiveTranslate 的产品定价

Qwen3.5-LiveTranslate-Flash 的在线 Demo 已可免费体验。API 即将通过阿里云百炼上线，具体定价以阿里云百炼官方公告为准。

如何使用 Qwen3.5-LiveTranslate

在线体验： 访问 https://omni.qwen.ai/live-translate 在线体验实时同传效果。
查看技术博客： 访问 https://qwen.ai/blog?id=qwen3.5-livetranslate 了解技术细节与演示案例。
API 调用（即将上线）： 通过阿里云百炼 API 接入，用于跨境直播、会议同传、智能硬件等生产环境。
热词配置： 调用时通过热词引擎预设行业术语、人名、品牌等自定义词条（最高 1000 条），支持实时更新。

常见问题

Q：和前代 Qwen3-LiveTranslate-Flash 相比提升了多少？

A：全面升级。语种覆盖从 18 种扩展到 60 种（输入 + 文字输出），音频输出从 10 种扩展到 29 种；端到端字均延迟从约 4.7 秒降至 2.8 秒（降低 1.88 秒）；新增实时音色克隆和动态热词引擎两项核心能力；在 FLEURS、CoVoST2 上翻译准确率显著优于前代。

Q：音色克隆具体怎么工作？

A：在同传过程中，模型自动捕捉说话人的音色特征，并在翻译成目标语言时复刻相同的声音质感与情绪表现力。这意味着一个说中文的主播被翻译成英文后，听起来仍然像是同一个人在说英文。

Q：热词引擎怎么用？

A：最高支持 1000 个自定义词条，可预设人名、品牌、产品型号、行业术语等。在 API 调用时通过参数配置传入，支持场景动态切换和实时更新。适合技术发布会、医疗/法律/金融会议等术语密集场景。

Q：支持离线使用吗？

A：目前公告中未提及 Qwen3.5 版本的开源或离线部署计划。前代 Qwen3-LiveTranslate-Flash 已开源，Qwen3.5 版本的开源节奏以官方公告为准。

Q：可以用在视频内容翻译（非实时）上吗？

A：可以。模型支持离线音视频文件翻译和实时流式同传两种模式，离线模式下翻译质量更高，适合影视配音、课程翻译等场景。

产品点评

亮点

60 种语言覆盖是同类实时翻译模型中的顶尖水平，从前代 18 种的 3 倍跃升直接拉开了和竞品的差距
实时音色克隆是核心差异化——翻译后保留说话人原声特征，让"AI 同传"从"能用"进化到"自然"
2.8 秒端到端延迟在当前实时同传模型中处于领先水平，基于 Readable Unit 技术在延迟和质量间取得了出色平衡
动态热词引擎（1000 条自定义词条）对专业会议场景非常实用，直接解决了"术语翻错"的行业痛点
视觉消歧能力继承自前代，多模态辅助翻译在嘈杂环境下优势明显
已有千问 AI 眼镜等智能硬件落地实测，不是纯实验室产品

不足

29 种语言音频输出相比 60 种语言输入仍有差距，部分语种只能获得文字输出
API 尚未正式上线（"即将通过百炼上线"），开发者暂时只能体验 Demo
Qwen3.5 版本是否开源尚未公布，前代 Qwen3 版本已开源
音色克隆在极端场景（极快语速、强烈情绪波动、多人重叠发言）下的稳定性需要更多实战验证

Qwen3.5-LiveTranslate - 阿里通义千问推出的多语言实时同传模型

Qwen3.5-LiveTranslate 是什么

Qwen3.5-LiveTranslate 的主要特性

Qwen3.5-LiveTranslate 的应用场景

Qwen3.5-LiveTranslate 的产品定价

如何使用 Qwen3.5-LiveTranslate

常见问题

产品点评

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型

Qwen3.5-LiveTranslate 是什么

Qwen3.5-LiveTranslate 的主要特性

Qwen3.5-LiveTranslate 的应用场景

Qwen3.5-LiveTranslate 的产品定价

如何使用 Qwen3.5-LiveTranslate

常见问题

产品点评

通义千问 - 阿里云推出的AI大语言模型

Qwen2.5-Turbo：阿里推出的AI大语言模型，支持 100 万 tokens 上下文，处理时间缩短至 68 秒

Qwen3.7-Max：阿里发布的新一代千问旗舰模型

千问云 - 阿里云面向 Agentic 时代推出的 AI 模型服务平台

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型