智谱发布 GLM-5V-Turbo：多模态 Coding 基座模型，一张图片生成代码，为龙虾装上眼睛

2026年4月2日，智谱 AI 正式发布 GLM-5V-Turbo，这是一款面向视觉编程场景打造的多模态 Coding 基座模型。与此前的纯文本编程模型不同，GLM-5V-Turbo 从预训练阶段开始深度融合视觉与文本能力，能够直接看懂设计稿、截图、网页界面，并据此生成完整可运行的代码。上下文窗口扩展至 200K，支持画框、截图、读网页等多模态工具调用。

在 Agent 场景方面，接入 GLM-5V-Turbo 后，OpenClaw、AutoClaw 等龙虾 Agent 具备了真正的视觉感知能力，能够看懂屏幕上的 GUI 元素、图表和网页布局，完成"看懂环境→规划动作→执行任务"的完整闭环。AutoClaw 已上线"股票分析师" Skill，龙虾可直接读懂 K 线图和券商研报图表，60 秒并行采集四路数据源并输出图文研报。

评测数据方面，模型在设计稿还原、视觉代码生成、AndroidWorld、WebVoyager 等基准上取得领先，在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval、ZClawBench 上同样表现突出。字节跳动 TRAE、美团、快手万擎均参与了内测评价，整体反馈认为其视觉能力的引入未削弱纯文本编程能力，仍属国内第一梯队。

智谱发布 GLM-5V-Turbo：多模态 Coding 基座模型，一张图片生成代码，为龙虾装上眼睛

官方 Skills 已上线 ClawHub，涵盖图像 Captioning、视觉 Grounding、文字识别、表格识别、文生图等能力，一键安装即可体验。用户可通过 AutoClaw 或 Z.ai 直接体验，也可通过 BigModel 开放平台 API 接入。

智谱发布 GLM-5V-Turbo：多模态 Coding 基座模型，一张图片生成代码，为龙虾装上眼睛

豆包 - 字节跳动旗下免费AI智能助手

SpeedAI - 专业的AIGC检测、降重降AI平台

千问 - 阿里旗下 AI 智能助手

LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成

星流 - LiblibAI 推出的一站式 AI 设计 Agent

讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具

谱乐 AI - 一站式 AI 音乐与 MV 创作平台

Claude Science - Anthropic推出的面向科研人员的AI工作台

讯飞译制 - AI视频字幕制作与多语种译制平台

LongCat-2.0：美团发布并开源的万亿参数AI模型

图颜AI - 工作室 / 跨境电商必备AI设计助手

千问输入法 - 阿里千问推出的 AI 语音输入法，说完即成稿

GLM-5V-Turbo - 智谱推出的多模态 Coding 基座模型

智谱AI推出新清影：模型全面升级、4K、任意比例、自带音效

百度发布 DuClaw：零部署开启 OpenClaw“养虾”体验

小米 MiMo-V2-Pro 正式发布：Agent 场景超越 Sonnet 4.6，API 定价仅为同级 1/5