CogAgent-9B：智谱AI推出的专用于Agent任务的开源基座模型

CogAgent-9B 是什么？

CogAgent-9B是由智谱AI最新推出的开源的 GLM-PC 基座模型，基于 GLM-4V-9B 训练而成的专用Agent任务模型。该模型仅需屏幕截图作为输入（无需HTML等文本表征），便能根据用户指定的任意任务，结合历史操作，预测下一步的GUI操作。得益于屏幕截图和GUI操作的普适性，CogAgent 可广泛应用于各类基于GUI交互的场景，如个人电脑、手机、车机设备等。　

相较于2023年12月开源的第一版 CogAgent 模型，CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升，并支持中英文双语的屏幕截图和语言交互。　

CogAgent-9B的核心特点

创新输入方式： 仅通过屏幕截图作为输入，不需要任何布局信息或附加元素标签。通过分析截图和历史动作，CogAgent-9B能够高效预测下一步的操作。
双语支持： 不仅支持中文和英文的操作界面交互，还能够识别并理解双语屏幕截图，满足全球用户的需求。
强大的视觉理解： 基于GLM-4V-9B视觉语言模型，CogAgent-9B具有超强的图像理解能力，能够精确解析图形界面的每个细节，确保预测结果的准确性。
广泛适用性： 从个人电脑到手机、车机等多平台设备，CogAgent-9B能在不同设备上执行复杂的GUI任务，适用于各种工作流和应用场景。
高效性与精确性： 通过优化的视觉处理模块和高效的输入图像处理方法，CogAgent-9B能够在保证精度的同时，提升任务执行速度。
灵活的任务执行： 支持从基础操作（如点击、输入）到高级动作（如启动应用、调用语言模型等）的多种任务执行。通过结构化的自然语言描述和函数调用形式，确保动作执行准确无误。

CogAgent-9B 的评测结果

CogAgent-9B 在多个关键性能指标上表现出色，尤其是在 GUI 定位（Screenspot）、单步操作（OmniAct）和中文 step-wise 榜单（CogAgentBench-basic-cn）等方面均取得了领先的成绩。尽管在某些多步操作任务（如 OSWorld）中，CogAgent-9B略逊色于针对计算机使用优化的 Claude-3.5-Sonnet 和结合外接 GUI Grounding 的 GPT-4o，但整体性能仍然非常强劲。