豆包AI助手
当前位置:首页>AI模型>GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型

GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型

GLM-5V-Turbo 是什么

GLM-5V-Turbo 是智谱 AI 推出的首个多模态 Coding 基座模型,面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入,擅长长程规划、复杂编程和动作执行,深度适配 Agent 工作流,可与 Claude Code、OpenClaw 等 Agent 协同,完成"看懂环境→规划动作→执行任务"的完整闭环。模型在多模态 Coding 与 Agentic 任务评测基准上以更小尺寸取得领先表现,在衡量 Agent 任务执行质量的 PinchBench、ClawEval 和 ZClawBench 上同样取得优异成绩。

GLM-5V-Turbo

GLM-5V-Turbo 的模型特性

  • 多模态 Coding 基座: 在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上取得领先表现,在 AndroidWorld、WebVoyager 等 GUI 环境操控基准上表现突出,视觉能力引入未导致纯文本 Coding 能力退化
  • 深度 Agent 协同: 接入 OpenClaw 后,Agent 可看懂网页布局、GUI 元素和图表信息,完成感知、规划与执行一体化的复杂任务;支持与 Claude Code 等框架协同自主浏览目标网站、采集视觉素材并生成代码
  • 四层系统性升级:
    • 原生多模态融合:新一代 CogViT 视觉编码器 + 推理友好 MTP 结构
    • 30+ 任务协同强化学习:覆盖 STEM、Grounding、Video、GUI Agent、Coding Agent 等类型
    • Agentic 数据与任务构造:多层级可控可验证数据体系,预训练阶段注入 Agentic 元能力
    • 多模态工具链扩展:新增画框、截图、读网页(含图片识别)等多模态工具
  • 官方 Skill 支持: 提供图像 Captioning、视觉 Grounding、基于文档的写作、简历筛选等官方 Skill,可直接在 OpenClaw 生态中调用
  • 长上下文支持: 200K 上下文窗口,最大输出 128K Tokens,适配复杂长程任务

GLM-5V-Turbo 的应用场景

  • 前端复刻: 发送设计稿或参考图,模型直接理解布局、配色、组件层级与交互逻辑,生成完整可运行的前端工程,支持从原型图还原到高保真像素级复刻
  • GUI 自主探索复刻: 结合 Claude Code 等框架,自主浏览目标网站、梳理页面跳转关系、采集视觉素材与交互细节,基于探索结果直接生成代码
  • 代码调试: 将 Bug 页面截图输入,自动识别样式错位、组件重叠、颜色偏差等渲染异常,辅助定位前端问题并生成修复代码
  • OpenClaw Agent 增强: 为 OpenClaw Agent 提供视觉感知能力,让 Agent 在真实 GUI 环境中完成感知、规划、执行一体化的复杂任务
  • 多模态内容处理: 图像描述生成、视觉定位、基于文档写作、简历筛选等多模态信息处理场景

GLM-5V-Turbo 的产品定价

按 Token 计费,具体价格以官网定价页为准。

定价页: https://open.bigmodel.cn/pricing

如何使用 GLM-5V-Turbo

产品体验:

API 接入:

  1. 访问 bigmodel.cn 注册智谱 AI 开放平台账号
  2. 在控制台创建 API Key
  3. 参考接口文档调用 glm-5v-turbo 模型
  4. 在 OpenClaw 中接入 GLM-5V-Turbo 即可为 Agent 补充视觉感知能力
  5. 也可在体验中心直接测试模型效果
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。