豆包AI助手
当前位置:首页>AI模型>Qwen3.7-Max:阿里通义千问发布的智能体旗舰模型

Qwen3.7-Max:阿里通义千问发布的智能体旗舰模型

Qwen3.7-Max是什么

Qwen3.7-Max 是阿里云通义千问团队发布的 Qwen 3.7 系列旗舰模型,定位为面向智能体时代的全能基座。模型的核心设计目标是成为编程、办公自动化和长周期自主任务的可靠底层引擎——无论部署在 Claude Code、OpenClaw、Qwen Code 还是其他智能体框架下均能稳定发挥。Qwen3.7-Max 在编程智能体、通用智能体、高难度推理和多语言能力上全面达到前沿水平,并通过一项长达 35 小时、超过 1,000 次工具调用的全自主内核优化实验验证了其持续推理与长程执行能力。API 即将通过阿里云百炼上线,兼容 OpenAI 和 Anthropic 协议。

Qwen3.7-Max

Qwen3.7-Max 的主要特性

  • 编程智能体能力领先: 在 SWE-Pro(60.6)、SWE-Multilingual(78.3)、SciCode(53.5)、NL2repo(47.2)、Terminal-Bench 2.0(69.7)上均取得多项领先或与最强竞品持平的表现,覆盖从前端原型到复杂多文件工程的全链路编程任务。
  • 通用智能体能力全面: 在 MCP-Mark(60.8)、MCP-Atlas(76.4)、Skillbench(59.2)、BFCL-V4(75.0)、SpreadSheetBench-v1(87.0)等通用智能体与办公自动化 benchmark 上表现突出;Kernel Bench L3 达到 1.98 倍中位数加速 / 96% 加速率,展示强大的 GPU 内核优化能力。
  • 高难度推理突破: GPQA Diamond 92.4(超越 Opus-4.6 的 91.3)、HLE 41.4、HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5(超越 DS-V4-Pro 的 38.3),在数学与科学推理 benchmark 上多项登顶。
  • 35 小时长周期自主执行: 在平头哥真武 M890 PPU(训练中从未见过的硬件)上完成 432 次内核评估、1,158 次工具调用的全自主内核优化任务,最终达到相对 Triton 参考实现 10.0 倍几何平均加速,30+ 小时后仍在发现有意义的改进。
  • 跨框架泛化能力: 不针对特定框架优化——在 Claude Code、OpenClaw、Qwen Code 和各类自定义框架下均能稳定发挥。训练方法基于任务-框架-验证器解耦的组合式扩展,迫使模型学习泛化策略而非框架捷径。
  • 环境扩展方法论: 在 Qwen3.5 引入的环境扩展基础上进一步扩展训练环境的质量与多样性,性能增益高度可预测——任意 benchmark 子集的增益可可靠预测整体增益,表明驱动的是真正的能力泛化。
  • 多语言与长上下文: WMT24++(85.8)、MAXIFE(89.2)、PolyMATH(86.5)等多语言 benchmark 多项领先;MRCR-v2 128K 达到 90.4,长上下文能力突出。
  • preserve_thinking 功能: 在消息中保留所有前序轮次的思维内容,专为智能体任务设计,保持长链路推理的连贯性。

Qwen3.7-Max 的应用场景

  • 编程智能体基座: 作为 Claude Code、OpenClaw、Qwen Code 等编程助手的底层模型,处理从前端原型到复杂多文件软件工程的全链路任务。
  • 长周期自主任务: 执行需要数十小时、上千次工具调用的长程自主任务——如 GPU 内核优化、RL 训练监控、代码仓库级重构等。
  • 办公自动化与生产力: 通过 MCP 集成和多智能体协作自动化企业工作流——文档处理、数据分析、报告生成、论文格式修复等。
  • 高难度推理任务: 数学竞赛题求解、科学研究辅助、复杂逻辑推理等需要深度推理能力的场景。
  • 具身智能体: 通过工具调用操控机器狗等物理设备,在物理环境中执行理解、规划、记忆与决策。
  • 长程企业模拟与规划: 在 YC-Bench 等模拟经营环境中跨越数百轮决策执行长程商业策略,展示跨上下文窗口的策略进化能力。
  • RL 训练奖励监控: 自主监控强化学习训练中的奖励作弊模式,归纳检测规则并迭代优化,实现 RL 实验的自我保障。

Qwen3.7-Max 的产品定价

Qwen3.7-Max API 即将通过阿里云百炼上线,具体定价以 阿里云百炼 官方公告为准。

如何使用 Qwen3.7-Max

  1. Qwen Studio 体验: 访问 https://chat.qwen.ai 在线体验 Qwen3.7-Max 的对话与推理能力。
  2. 获取 API Key: 访问 https://bailian.console.aliyun.com 注册阿里云百炼并获取 API Key。
  3. API 直接调用: 使用模型 ID qwen3.7-max,通过 OpenAI 兼容协议调用:https://dashscope.aliyuncs.com/compatible-mode/v1
  4. Claude Code 集成: 设置环境变量 ANTHROPIC_MODEL=qwen3.7-max,配置百炼 Anthropic 兼容端点即可直接在 Claude Code 中使用。
  5. OpenClaw 集成: 在 OpenClaw 配置文件中添加百炼 provider,设置 qwen3.7-max 为默认模型。
  6. Qwen Code 集成: 安装 @qwen-code/qwen-code@latest,运行 qwen 命令即可使用针对 Qwen 系列深度优化的编程助手。

常见问题

Q:Qwen3.7-Max 和 Qwen3.6-Plus 相比提升了多少?

A:提升全面且幅度显著。以几个关键 benchmark 为例:Terminal-Bench 69.7 vs 61.6、MCP-Mark 60.8 vs 48.2、Apex 44.5 vs 8.8、GPQA Diamond 92.4 vs 90.4、MRCR-v2 128K 90.4 vs 85.9。在 YC-Bench 模拟经营中营收 2.08M 美元,是 Qwen3.6-Plus(1.05M)的 2 倍。

Q:和 Claude Opus 4.6 Max 相比怎么样?

A:在 GPQA Diamond(92.4 vs 91.3)、HLE(41.4 vs 40.0)、HMMT(97.1 vs 96.2)、MCP-Atlas(76.4 vs 75.8)等多项上取得领先。在 SWE-Verified(80.4 vs 80.8)和 Kernel Bench(96% vs 98%)上非常接近。整体定位为综合排名前三的旗舰模型。

Q:35 小时内核优化实验是什么?

A:Qwen3.7-Max 在从未见过的平头哥真武 M890 PPU 硬件上,全自主完成了 35 小时、1,158 次工具调用的 Extend Attention Kernel 优化任务,最终达到 10.0 倍加速。对比其他模型:GLM 5.1 达 7.3 倍、Kimi K2.6 达 5.0 倍、DeepSeek V4 Pro 达 3.3 倍。

Q:可以用在 Claude Code 里吗?

A:可以。Qwen API 支持 Anthropic 协议,设置 ANTHROPIC_MODEL=qwen3.7-max 并配置百炼端点即可在 Claude Code 中直接使用。

Q:什么是 preserve_thinking?

A:Qwen3.7-Max 支持的一项功能——在多轮对话的消息中保留所有前序轮次的思维内容,让智能体在长链路任务中保持推理连贯性,推荐在智能体场景下开启。

Q:Qwen3.7-Max 是开源的吗?

A:Qwen3.7-Max 是闭源旗舰模型,通过阿里云百炼 API 提供服务。Qwen 系列的开源模型线请关注 Qwen GitHub 和 HuggingFace。

产品点评

亮点

  • 编程智能体 benchmark 多项领先(SWE-Pro、SciCode、NL2repo、Terminal-Bench),全链路编程能力覆盖完整
  • 35 小时、1,158 次工具调用的长周期自主执行实验极具说服力——在训练中从未见过的硬件上达到 10 倍加速,远超竞品
  • 跨框架泛化是核心差异化——不绑定任何特定框架,在 Claude Code / OpenClaw / Qwen Code / 自定义框架下均稳定发挥
  • 高难度推理多项登顶(GPQA Diamond 92.4、HMMT 97.1、Apex 44.5),证明智能体能力与推理能力并不矛盾
  • 环境扩展方法论成熟——性能增益高度可预测,驱动的是真正的能力泛化而非特定 benchmark 的提升
  • API 同时兼容 OpenAI 和 Anthropic 协议,生态适配成本极低
  • preserve_thinking 功能专为智能体长链路任务设计

不足

  • 闭源模型,无法本地部署或自定义微调
  • API 尚未正式上线("即将通过百炼提供服务"),发布时间存在不确定性
  • 定价尚未公开,无法评估性价比
  • QwenWebDev 前端代码生成评分(1568)略低于 Opus-4.6(1617)和 QwenSVG 中 GLM-5.1(1605),前端开发场景并非绝对优势
  • 作为旗舰模型,推理成本预计较高,日常轻量任务可能更适合用 Qwen3.7-Plus 或 Flash 系列
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。