GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型

GLM-5V-Turbo 是什么

GLM-5V-Turbo 是智谱 AI 推出的首个多模态 Coding 基座模型，面向视觉编程任务打造。能够原生处理图片、视频、文本等多模态输入，擅长长程规划、复杂编程和动作执行，深度适配 Agent 工作流，可与 Claude Code、OpenClaw 等 Agent 协同，完成"看懂环境→规划动作→执行任务"的完整闭环。模型在多模态 Coding 与 Agentic 任务评测基准上以更小尺寸取得领先表现，在衡量 Agent 任务执行质量的 PinchBench、ClawEval 和 ZClawBench 上同样取得优异成绩。

GLM-5V-Turbo 的模型特性

多模态 Coding 基座： 在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上取得领先表现，在 AndroidWorld、WebVoyager 等 GUI 环境操控基准上表现突出，视觉能力引入未导致纯文本 Coding 能力退化
深度 Agent 协同： 接入 OpenClaw 后，Agent 可看懂网页布局、GUI 元素和图表信息，完成感知、规划与执行一体化的复杂任务；支持与 Claude Code 等框架协同自主浏览目标网站、采集视觉素材并生成代码
四层系统性升级：
- 原生多模态融合：新一代 CogViT 视觉编码器 + 推理友好 MTP 结构
- 30+ 任务协同强化学习：覆盖 STEM、Grounding、Video、GUI Agent、Coding Agent 等类型
- Agentic 数据与任务构造：多层级可控可验证数据体系，预训练阶段注入 Agentic 元能力
- 多模态工具链扩展：新增画框、截图、读网页（含图片识别）等多模态工具
官方 Skill 支持： 提供图像 Captioning、视觉 Grounding、基于文档的写作、简历筛选等官方 Skill，可直接在 OpenClaw 生态中调用
长上下文支持： 200K 上下文窗口，最大输出 128K Tokens，适配复杂长程任务

GLM-5V-Turbo 的应用场景

前端复刻： 发送设计稿或参考图，模型直接理解布局、配色、组件层级与交互逻辑，生成完整可运行的前端工程，支持从原型图还原到高保真像素级复刻
GUI 自主探索复刻： 结合 Claude Code 等框架，自主浏览目标网站、梳理页面跳转关系、采集视觉素材与交互细节，基于探索结果直接生成代码
代码调试： 将 Bug 页面截图输入，自动识别样式错位、组件重叠、颜色偏差等渲染异常，辅助定位前端问题并生成修复代码
OpenClaw Agent 增强： 为 OpenClaw Agent 提供视觉感知能力，让 Agent 在真实 GUI 环境中完成感知、规划、执行一体化的复杂任务
多模态内容处理： 图像描述生成、视觉定位、基于文档写作、简历筛选等多模态信息处理场景

GLM-5V-Turbo 的产品定价

按 Token 计费，具体价格以官网定价页为准。

定价页： https://open.bigmodel.cn/pricing

如何使用 GLM-5V-Turbo

产品体验：

AutoClaw（澳龙）：https://autoglm.zhipuai.cn/autoclaw/
Z.ai：https://chat.z.ai

API 接入：

BigModel 开放平台：https://docs.bigmodel.cn
Z.ai 文档：https://docs.z.ai

访问 bigmodel.cn 注册智谱 AI 开放平台账号
在控制台创建 API Key
参考接口文档调用 glm-5v-turbo 模型
在 OpenClaw 中接入 GLM-5V-Turbo 即可为 Agent 补充视觉感知能力
也可在体验中心直接测试模型效果

GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型

GLM-5V-Turbo 是什么

GLM-5V-Turbo 的模型特性

GLM-5V-Turbo 的应用场景

GLM-5V-Turbo 的产品定价

如何使用 GLM-5V-Turbo

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

谱乐 AI - 一站式 AI 音乐与 MV 创作平台

Claude Science - Anthropic推出的面向科研人员的AI工作台

讯飞译制 - AI视频字幕制作与多语种译制平台

LongCat-2.0：美团发布并开源的万亿参数AI模型

图颜AI - 工作室 / 跨境电商必备AI设计助手

千问输入法 - 阿里千问推出的 AI 语音输入法，说完即成稿

GLM-5V-Turbo 是什么

GLM-5V-Turbo 的模型特性

GLM-5V-Turbo 的应用场景

GLM-5V-Turbo 的产品定价

如何使用 GLM-5V-Turbo

Xiaomi MiMo-V2-Omni：小米全模态 Agent 基座模型，图像视频音频文本统一理解

Xiaomi MiMo-V2-Pro：小米发布的最新旗舰 Agent 基座模型

GLM-4-Flash：智谱AI推出的首个免费API服务，支持128K上下文

小米 MiMo-V2-Pro 正式发布：Agent 场景超越 Sonnet 4.6，API 定价仅为同级 1/5

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

谱乐 AI - 一站式 AI 音乐与 MV 创作平台

Claude Science - Anthropic推出的面向科研人员的AI工作台

讯飞译制 - AI视频字幕制作与多语种译制平台

LongCat-2.0：美团发布并开源的万亿参数AI模型

图颜AI - 工作室 / 跨境电商必备AI设计助手

千问输入法 - 阿里千问推出的 AI 语音输入法，说完即成稿