阿里通义千问宣布推出多模态模型 Qwen VLo，实现从感知到生成的跨越

2025年6月26日，阿里巴巴达摩院通义千问团队正式发布其最新多模态模型 —— Qwen VLo，标志着通义在图文理解与生成能力上的重大突破，实现了从“看懂”世界到“描绘”世界的跨越式提升。

Qwen VLo 是一款统一的视觉-语言模型，具备图文双向交互能力，不仅能理解图像内容，还可根据自然语言指令进行高质量图像生成与编辑。模型支持风格迁移、背景更换、物体添加等复杂视觉操作，同时具备视觉感知任务能力，如图像分割、边缘检测等，是目前极具实用性和通用性的多模态模型之一。

与传统图像生成技术不同，Qwen VLo 采用渐进式生成机制，图像逐行生成，更利于用户在过程中进行精细控制。此外，它支持任意分辨率图像输入输出，以及中英文多语言交互，广泛适用于插画创作、广告设计、教育图解、影视分镜等场景。

目前，Qwen VLo 已在通义官网上线预览体验。通义团队表示，未来将持续优化模型能力，推动多模态AI在创意设计、视觉交互、科研教育等领域的深入应用。

AstronClaw - 科大讯飞推出的云端 OpenClaw，沙箱隔离一键部署