阿里发布 Qwen3.7-Plus：面向多模态智能体的视觉语言模型

2026 年 6 月 2 日，阿里 Qwen 团队正式发布 Qwen3.7-Plus，这是一款面向多模态智能体场景的新模型，核心定位是将视觉理解与语言推理统一到同一个模型基础中，让 AI 不仅能处理文本任务，也能理解图像、视频和界面信息。

根据官方介绍，Qwen3.7-Plus 是基于 Qwen3.7 强大的文本能力进一步升级而来，重点增强了视觉语言理解能力，适合用于多模态问答、图片与视频分析、网页/桌面界面理解、文档处理、开发辅助和智能体工作流等场景。

与传统文本大模型相比，Qwen3.7-Plus 更强调“看懂并行动”的能力。它可以接收文本、图像和视频等多模态输入，在智能体任务中承担感知、理解、推理和执行规划等角色。例如，在网页自动化、GUI 智能体、企业后台操作、视觉 RAG、产品界面分析等场景中，模型可以结合视觉信息与语言指令完成更复杂的任务。

目前，Qwen3.7-Plus 已通过阿里云百炼提供 API 调用，开发者可以将其接入自己的应用、智能体框架或自动化工作流中。对于普通用户来说，也可以关注 Qwen Studio 等官方入口，体验 Qwen 系列模型在多模态理解和智能助手方向的能力升级。

从产品演进来看，Qwen3.7-Plus 代表 Qwen 系列正在从通用对话模型继续向智能体基础模型扩展。过去，大模型主要解决“回答问题”和“生成内容”；而在 Agent 场景中，模型需要进一步具备理解界面、识别视觉信息、调用工具和完成任务的能力。Qwen3.7-Plus 正是面向这一趋势推出的重要版本。

对开发者而言，Qwen3.7-Plus 的价值在于它提供了更完整的多模态 Agent 基础能力，可用于构建能够理解截图、网页、视频和复杂文档的智能应用。对企业用户而言，它也有机会应用在办公自动化、业务流程处理、图表分析、客服辅助和内部系统操作等场景中。

随着 Qwen3.7-Plus 的上线，国内大模型在多模态智能体方向的竞争进一步加速。未来，大模型之间的差异可能不再只是文本推理、代码能力或上下文长度，而是能否真正理解真实世界中的复杂信息，并在工具和系统中完成可执行任务。

阿里发布 Qwen3.7-Plus：面向多模态智能体的视觉语言模型

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

Kimi K3 - 月之暗面推出的2.8万亿参数开源多模态旗舰模型

小橡皮 - 内容去AI味与发布风险检测工具

PixPix - 跨境电商AI商品图与视频创作平台

LibTV Agent - LiblibAI推出的专业AI视频创作智能体

蛙蛙漫剧 - 一站式AI漫剧视频创作工具

GPT-Live：OpenAI 新一代实时语音交互模型

Qwen3.7-Plus - 阿里巴巴推出的新一代多模态智能体模型

千问接入全新一代大模型Qwen3.7-Max

OpenAI发布AI智能体开发套件：加速 AI Agents 的构建与部署

百度发布 DuClaw：零部署开启 OpenClaw“养虾”体验