Hy3 preview是什么
Hy3 preview 是腾讯混元团队于 2026 年 4 月 23 日发布并开源的快慢思考融合 MoE 模型,总参数 295B、激活参数 21B,支持最高 256K 上下文。它是混元重建预训练与强化学习基础设施之后训练的首个模型,官方称其为迄今最智能的 Hy 模型,在复杂推理、指令遵循、上下文学习、代码、智能体等方向均有大幅提升,强调面向真实生产与生活场景的实用性。
模型权重以腾讯混元社区许可协议在 GitHub、Hugging Face、ModelScope、GitCode 四个平台同步开源,支持 vLLM、SGLang 部署与 OpenAI 兼容 API 调用,提供全量微调与 LoRA 微调流程、DeepSpeed ZeRO 配置及 LLaMA-Factory 集成,并兼容 OpenClaw、OpenCode、KiloCode 等主流 Agent 框架。
目前已接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等腾讯系产品。

Hy3 preview 的核心能力
- 快慢思考融合架构: 单模型支持
no_think(默认,直接回答)、low、high(深度思维链)三档推理努力度切换,开发者可按任务复杂度灵活控制推理深度与成本。 - 复杂推理(STEM & Reasoning): 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理基准中表现突出,并在清华大学求真书院数学博资考(26春)、全国中学生生物学联赛(CHSBO 2025)等真实考试中取得优异成绩。
- 上下文学习与指令遵循: 面向真实业务中杂乱冗长的上下文与复杂多变规则设计,混元团队基于自有业务场景提出 CL-bench 与 CL-bench-Life 评测体系加以验证,模型在该方向较前代有显著提升。
- 代码与智能体(Code & Agent): 官方披露提升最为显著的方向,在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准,以及 BrowseComp、WideSearch、ClawEval、WildClawBench 等搜索与 Agent 基准中取得有竞争力的结果。
- 256K 长上下文: 最高支持 256K 上下文窗口,可用于长文档理解、大代码仓阅读、长链路多轮对话等任务。
- 推理性能与 Agent 稳定性: 在腾讯内部 CodeBuddy、WorkBuddy 验证中,首 Token 延迟降低 54%、端到端时长降低 47%、成功率达 99.99%+,实测稳定驱动最长 495 步的复杂 Agent 工作流。
- MoE 架构成本优势: 21B 激活参数在同级别模型中推理成本相对较低,更适合高频次、长链路的 Agent 调用与企业级部署场景。
Hy3 preview 的适用场景
- 代码智能体与软件工程: 驱动 CodeBuddy、OpenClaw、OpenCode 等代码 Agent 框架,覆盖多文件代码理解、bug 修复、代码生成、终端命令执行等场景。官方披露在 CodeBuddy 中已稳定运行最长 495 步的复杂编码工作流。
- 企业办公 Agent: 接入 WorkBuddy 类办公场景,处理文档生成、数据分析、知识检索、MCP 工具链编排等长链路任务,首 Token 延迟与端到端时长较前代均有显著下降。
- 长文档与知识库问答: 基于 256K 上下文能力,接入 ima 类知识库问答场景,在回答信息的准确性、覆盖度与全面性上表现较好,适合企业文档检索、资料汇总等任务。
- 智能对话与内容创作: 已在腾讯元宝中完成深度 Co-Design,针对意图理解、文本创作质量、深度搜索等场景做了专项调优,适合通用对话、写作辅助、深度搜索类 C 端应用。
- 复杂推理与教育研究: 适用于数理、物理、生物奥赛级别的复杂推理任务,以及学术研究辅助和理工科教学内容生成。
- 研究者与开发者自托管: 高校、研究机构与企业技术团队可基于开源权重通过 vLLM、SGLang 自建推理服务,用于模型对比评测、后训练实验、领域微调等研究用途。
- 国产开源模型替代选型: 企业在国产化、合规或多模型对比的背景下,可将 Hy3 preview 作为 Qwen、DeepSeek、GLM 等之外的另一个开源底座候选纳入评估。
Hy3 preview 的产品定价
Hy3 preview 提供开源自托管与腾讯云托管两种使用方式:
- 开源权重(免费): 模型权重在 GitHub、Hugging Face、ModelScope、GitCode 四个平台同步开源,遵循腾讯混元社区许可协议,可免费下载并自行部署。具体商用条款请阅读仓库 LICENSE 文件。
- 腾讯云 API 调用: 在腾讯云官方平台提供 Hy3 preview 调用服务,据官方披露,输入 Token 价格约 0.18 美元 / 百万 Token 起,输出 Token 价格约 0.59 美元 / 百万 Token 起。
- 腾讯云 Token Plan 套餐: 腾讯云同时推出定制化 Token 套餐包,面向开发者的个人套餐起步价约 4.10 美元 / 月,适合构建 Agent 应用与下一代 AI 应用的开发者。
- 第三方平台接入: 模型已上线 OpenRouter 等主流 API 聚合平台(发布初期提供限期免费试用),并在 OpenClaw 等 Agent 开发套件中实现"即插即用"集成。
- 自托管成本说明: 开源自托管的实际成本取决于 GPU 资源配置与推理框架选择,295B 总参数的权重存储与显存占用门槛较高,多卡服务器配合 vLLM / SGLang 是常见部署方案。
如何使用 Hy3 preview
- 在腾讯系产品中直接体验: 最简单的方式是在腾讯元宝、ima、QQ、QQ 浏览器、腾讯文档、腾讯乐享等已接入 Hy3 preview 的产品中直接使用,无需部署或付费。
- 通过第三方聚合平台试用: 在 OpenRouter 等 API 聚合平台体验模型效果(发布初期提供限期免费试用)。
- 通过腾讯云调用 API: 开发者可在腾讯云开通 Hy3 preview 服务,获取 API Key 后使用 OpenAI 兼容接口调用,适合对接业务系统或构建 Agent 应用。
- 下载开源权重自托管: 从 GitHub、Hugging Face或ModelScope 拉取模型权重,遵循腾讯混元社区许可协议。
- 部署推理服务: 使用 vLLM 或 SGLang 框架启动模型服务,默认监听 OpenAI 兼容接口(如
http://localhost:8000/v1),通过 OpenAI SDK 或 HTTP 接口调用,官方推荐参数temperature=0.9、top_p=1.0。 - 切换快慢思考模式: 在调用请求的
chat_template_kwargs中设置reasoning_effort参数,默认no_think直接回答,复杂任务切换到low或high启用深度思维链。 - 微调与接入 Agent 框架: 可通过官方提供的全量微调、LoRA 流程,配合 DeepSpeed ZeRO 或 LLaMA-Factory 做领域适配;也可在 OpenClaw、OpenCode、KiloCode 等 Agent 框架中将 Hy3 preview 作为底座模型即插即用接入。
常见问题
Q:Hy3 preview 是完全免费的吗?可以商用吗?
A:模型权重已在 GitHub、Hugging Face、ModelScope、GitCode 四个平台开源,个人学习和研究可免费下载使用。商用需遵循腾讯混元社区许可协议,具体条款以仓库 LICENSE 文件为准,如通过腾讯云 API 调用则按腾讯云公布的定价计费。
Q:Hy3 preview 和混元之前的 Hy 2.0 有什么区别?
A:Hy3 preview 是混元团队 2026 年 2 月完成预训练与强化学习基础设施重建之后训练的首个模型,由腾讯首席 AI 科学家姚顺雨带队研发。相比 Hy 2.0(参数规模超过 400B),Hy3 preview 总参数降至 295B、激活参数仅 21B,但在代码、智能体、复杂推理等方向相比前代有明显提升,官方定位为迄今最智能的 Hy 模型。
Q:295B 参数的模型,普通开发者本地部署得起吗?
A:虽然总参数 295B,但激活参数仅 21B,推理计算量相对同尺寸 Dense 模型更低。不过权重存储与显存占用依然较高,官方推荐使用 8 卡并行配合 vLLM 或 SGLang 部署。个人用户与中小团队更推荐通过腾讯元宝直接体验,或通过腾讯云 API、OpenRouter 等平台按量付费调用。
Q:快慢思考是什么意思?怎么切换?
A:Hy3 preview 在单个模型内融合了快思考与慢思考两种模式,支持三档推理努力度:no_think(默认,直接回答)、low(轻度思考)、high(深度思维链,适合数学、代码、复杂逻辑推理任务)。调用时在 chat_template_kwargs 中设置 reasoning_effort 参数即可切换。
Q:模型支持微调吗?生态工具链完善吗?
A:官方提供完整的训练流程,支持全量微调与 LoRA 微调,兼容 DeepSpeed ZeRO 多种配置并集成了 LLaMA-Factory。生态侧与 OpenClaw、OpenCode、KiloCode 等主流 Agent 开发框架兼容,OpenRouter 等 API 聚合平台也已上架,对接成本较低。
Q:和 DeepSeek、Qwen、GLM 等开源模型相比怎么选?
A:Hy3 preview 的强项在代码智能体与搜索智能体方向,尤其是长链路 Agent 工作流(官方披露在 CodeBuddy 中稳定运行最长 495 步)上有实战验证。21B 激活参数相比 DeepSeek-V3.2(600B+)、Kimi-K2.5(1T+)等更大模型在推理成本上有优势。但在小众泛化领域与英文场景上,社区实测与上述更大参数模型仍有一定差距。具体选型建议结合自身业务场景做实测对比。

