2026年4月2日,智谱 AI 正式发布 GLM-5V-Turbo,这是一款面向视觉编程场景打造的多模态 Coding 基座模型。与此前的纯文本编程模型不同,GLM-5V-Turbo 从预训练阶段开始深度融合视觉与文本能力,能够直接看懂设计稿、截图、网页界面,并据此生成完整可运行的代码。上下文窗口扩展至 200K,支持画框、截图、读网页等多模态工具调用。

在 Agent 场景方面,接入 GLM-5V-Turbo 后,OpenClaw、AutoClaw 等龙虾 Agent 具备了真正的视觉感知能力,能够看懂屏幕上的 GUI 元素、图表和网页布局,完成"看懂环境→规划动作→执行任务"的完整闭环。AutoClaw 已上线"股票分析师" Skill,龙虾可直接读懂 K 线图和券商研报图表,60 秒并行采集四路数据源并输出图文研报。
评测数据方面,模型在设计稿还原、视觉代码生成、AndroidWorld、WebVoyager 等基准上取得领先,在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval、ZClawBench 上同样表现突出。字节跳动 TRAE、美团、快手万擎均参与了内测评价,整体反馈认为其视觉能力的引入未削弱纯文本编程能力,仍属国内第一梯队。

官方 Skills 已上线 ClawHub,涵盖图像 Captioning、视觉 Grounding、文字识别、表格识别、文生图等能力,一键安装即可体验。用户可通过 AutoClaw 或 Z.ai 直接体验,也可通过 BigModel 开放平台 API 接入。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

