2026 年 6 月 2 日,阿里 Qwen 团队正式发布 Qwen3.7-Plus,这是一款面向多模态智能体场景的新模型,核心定位是将视觉理解与语言推理统一到同一个模型基础中,让 AI 不仅能处理文本任务,也能理解图像、视频和界面信息。

根据官方介绍,Qwen3.7-Plus 是基于 Qwen3.7 强大的文本能力进一步升级而来,重点增强了视觉语言理解能力,适合用于多模态问答、图片与视频分析、网页/桌面界面理解、文档处理、开发辅助和智能体工作流等场景。
与传统文本大模型相比,Qwen3.7-Plus 更强调“看懂并行动”的能力。它可以接收文本、图像和视频等多模态输入,在智能体任务中承担感知、理解、推理和执行规划等角色。例如,在网页自动化、GUI 智能体、企业后台操作、视觉 RAG、产品界面分析等场景中,模型可以结合视觉信息与语言指令完成更复杂的任务。
目前,Qwen3.7-Plus 已通过阿里云百炼提供 API 调用,开发者可以将其接入自己的应用、智能体框架或自动化工作流中。对于普通用户来说,也可以关注 Qwen Studio 等官方入口,体验 Qwen 系列模型在多模态理解和智能助手方向的能力升级。
从产品演进来看,Qwen3.7-Plus 代表 Qwen 系列正在从通用对话模型继续向智能体基础模型扩展。过去,大模型主要解决“回答问题”和“生成内容”;而在 Agent 场景中,模型需要进一步具备理解界面、识别视觉信息、调用工具和完成任务的能力。Qwen3.7-Plus 正是面向这一趋势推出的重要版本。
对开发者而言,Qwen3.7-Plus 的价值在于它提供了更完整的多模态 Agent 基础能力,可用于构建能够理解截图、网页、视频和复杂文档的智能应用。对企业用户而言,它也有机会应用在办公自动化、业务流程处理、图表分析、客服辅助和内部系统操作等场景中。
随着 Qwen3.7-Plus 的上线,国内大模型在多模态智能体方向的竞争进一步加速。未来,大模型之间的差异可能不再只是文本推理、代码能力或上下文长度,而是能否真正理解真实世界中的复杂信息,并在工具和系统中完成可执行任务。


