Qwen3.5-LiveTranslate 是什么
Qwen3.5-LiveTranslate-Flash 是阿里云通义千问团队发布的新一代多语言实时音视频同声传译模型,基于 Qwen3.5-Omni Thinker-Talker 架构打造。模型针对实时同传场景的三大痛点——延迟、语种覆盖、音色自然度——做了全面突破:支持 60 种语言的音频输入与文字输出、29 种语言的音频输出,端到端字均延迟降至 2.8 秒,并支持实时音色克隆让翻译后仍保留说话人的原声特征。相比前代 Qwen3-LiveTranslate-Flash(18 种语言、3 秒延迟、无音色克隆),实现了语种覆盖、延迟、音色自然度的全面进阶。在 FLEURS、CoVoST2 等公开多语言语音翻译基准上,翻译准确率优于当前主流语音大模型。

Qwen3.5-LiveTranslate 的主要特性
- 多语种覆盖升级: 输入音频和输出文本语种从前代 18 种提升至 60 种,输出音频语种从 10 种提升至 29 种,覆盖更多国家与区域的语言互译组合。
- 超低延迟: 引入全新 Readable Unit(可读单元)实时翻译技术,在保证译文可读性与语义连贯的前提下实现更激进的流式输出,相比前代首字延迟降低 3.45 秒、字均延迟降低 1.88 秒,翻译质量几乎无损。
- 实时音色克隆: 支持 Real-time Voice Cloning(动态跨语言音色克隆),在同传过程中自动捕捉并复刻说话人音色特征,译文在不同语言间保持"同一个人"的声音质感与情绪表现力,大幅提升主播、嘉宾、主持人的身份一致性与沉浸感。
- 热词增强: 内置 Hotword 引擎,最高支持 1000 个自定义词条,对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译,支持场景动态配置与实时更新。
- 视觉消歧辅助: 继承前代视觉增强能力,在语境模糊时自动引入视觉信息辅助判断,降低"一词多义"导致的翻译歧义。
- 复杂场景稳定发挥: 经过高频实战环境验证——多语混说 / 复杂口音会议、直播带货数字与规格精准翻译、古文 / 文化内容同传、智能硬件(千问 AI 眼镜)落地实测均表现稳定。
- Benchmark 领先: 在 FLEURS、CoVoST2 等公开多语言语音翻译基准上,翻译准确率优于当前主流语音大模型,显著优于前代 Qwen3-LiveTranslate-Flash。
Qwen3.5-LiveTranslate 的应用场景
- 跨国会议同声传译: 多语种交替发言的商务会议、业绩电话会议、行业峰会等场景下的实时同传,音色克隆让每位发言人保持声音身份一致性。
- 跨境直播带货: 主播用母语直播,实时翻译为目标市场语言并保留原声特征,商品参数、价格、折扣数字翻译准确率极高。
- 内容出海与影视配音: 影视内容、短视频、课程等音视频的多语言配音,音色克隆减少"机器感",保留原始表演的情绪表现力。
- 智能硬件落地: 搭配千问 AI 眼镜等终端设备,出境旅游、实地沟通场景下语音交互 + 实时同传无缝衔接。
- 技术发布会与行业会议: 通过热词引擎预设专有名词和术语,确保医疗、法律、金融、科技等专业会议的术语翻译准确性。
- 企业内训与在线教育: 跨语言培训、远程课堂的实时字幕与同传,降低多语言团队的沟通障碍。
- 出境旅游与跨方言沟通: 覆盖 60 种语言满足出境需求,未来有望扩展更多方言支持。
Qwen3.5-LiveTranslate 的产品定价
Qwen3.5-LiveTranslate-Flash 的在线 Demo 已可免费体验。API 即将通过阿里云百炼上线,具体定价以 阿里云百炼 官方公告为准。
如何使用 Qwen3.5-LiveTranslate
- 在线体验: 访问 https://omni.qwen.ai/live-translate 在线体验实时同传效果。
- 查看技术博客: 访问 https://qwen.ai/blog?id=qwen3.5-livetranslate 了解技术细节与演示案例。
- API 调用(即将上线): 通过阿里云百炼 API 接入,用于跨境直播、会议同传、智能硬件等生产环境。
- 热词配置: 调用时通过热词引擎预设行业术语、人名、品牌等自定义词条(最高 1000 条),支持实时更新。
常见问题
Q:和前代 Qwen3-LiveTranslate-Flash 相比提升了多少?
A:全面升级。语种覆盖从 18 种扩展到 60 种(输入 + 文字输出),音频输出从 10 种扩展到 29 种;端到端字均延迟从约 4.7 秒降至 2.8 秒(降低 1.88 秒);新增实时音色克隆和动态热词引擎两项核心能力;在 FLEURS、CoVoST2 上翻译准确率显著优于前代。
Q:音色克隆具体怎么工作?
A:在同传过程中,模型自动捕捉说话人的音色特征,并在翻译成目标语言时复刻相同的声音质感与情绪表现力。这意味着一个说中文的主播被翻译成英文后,听起来仍然像是同一个人在说英文。
Q:热词引擎怎么用?
A:最高支持 1000 个自定义词条,可预设人名、品牌、产品型号、行业术语等。在 API 调用时通过参数配置传入,支持场景动态切换和实时更新。适合技术发布会、医疗/法律/金融会议等术语密集场景。
Q:支持离线使用吗?
A:目前公告中未提及 Qwen3.5 版本的开源或离线部署计划。前代 Qwen3-LiveTranslate-Flash 已开源,Qwen3.5 版本的开源节奏以官方公告为准。
Q:可以用在视频内容翻译(非实时)上吗?
A:可以。模型支持离线音视频文件翻译和实时流式同传两种模式,离线模式下翻译质量更高,适合影视配音、课程翻译等场景。
产品点评
亮点
- 60 种语言覆盖是同类实时翻译模型中的顶尖水平,从前代 18 种的 3 倍跃升直接拉开了和竞品的差距
- 实时音色克隆是核心差异化——翻译后保留说话人原声特征,让"AI 同传"从"能用"进化到"自然"
- 2.8 秒端到端延迟在当前实时同传模型中处于领先水平,基于 Readable Unit 技术在延迟和质量间取得了出色平衡
- 动态热词引擎(1000 条自定义词条)对专业会议场景非常实用,直接解决了"术语翻错"的行业痛点
- 视觉消歧能力继承自前代,多模态辅助翻译在嘈杂环境下优势明显
- 已有千问 AI 眼镜等智能硬件落地实测,不是纯实验室产品
不足
- 29 种语言音频输出相比 60 种语言输入仍有差距,部分语种只能获得文字输出
- API 尚未正式上线("即将通过百炼上线"),开发者暂时只能体验 Demo
- Qwen3.5 版本是否开源尚未公布,前代 Qwen3 版本已开源
- 音色克隆在极端场景(极快语速、强烈情绪波动、多人重叠发言)下的稳定性需要更多实战验证

