GPT-OSS：OpenAI开源的大语言模型，支持本地部署与高效推理

GPT-oss 是什么？

GPT-OSS 是 OpenAI 发布的开源权重大语言模型系列，包含 20B 与 120B 两个版本，支持原生 128K tokens 长上下文、MoE 架构高效推理、微调与智能体功能，适合本地部署与企业级生成式应用，采用 Apache 2.0 许可协议。

模型版本	GPT-OSS-20B	GPT-OSS-120B
架构类型	Transformer + MoE	Transformer + MoE
总参数量	21B	1170B
每 token 激活参数	3.6B	5.1B
上下文长度	128K tokens（原生）	128K tokens（原生）
授权协议	Apache 2.0	Apache 2.0
是否本地部署	✅ 是	✅ 是（需高端GPU）
是否支持微调	✅ 支持（LoRA / QLoRA）	✅ 支持（推荐分布式）

GPT-oss 的模型亮点

支持 Apache 2.0 许可协议：可自由使用、修改和商用，无需担心版权限制或专利风险，适合用于实验、定制与商业部署。
可调节的推理强度：可根据不同应用场景或延迟需求，灵活设置推理策略（低、中、高），平衡性能与速度。
完整的思维链支持：模型支持输出完整的推理过程，便于调试与结果解释（仅供开发使用，不建议面向终端用户展示）。
支持微调：可通过参数微调，充分适配特定业务场景，实现模型个性化优化。
原生智能体能力：模型具备函数调用、网页浏览、Python代码执行与结构化输出等原生智能体能力，便于集成进复杂工作流。
原生 MXFP4 量化优化：模型在 MoE 层采用 MXFP4 精度训练，使得 GPT-OSS-120B 可在单张 H100 GPU 上运行，20B 版本可在 16GB 内存内运行，显著降低硬件门槛。

GPT-oss 的基准测试

GPT-OSS-120B 模型在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平，同时能在单个 80GB GPU 上高效运行。GPT-OSS-20B 模型在常见基准测试中与 OpenAI o3‑mini 模型取得类似结果，且可在仅配备 16GB 内存的边缘设备上运行，使其成为设备端应用、本地推理或无需昂贵基础设施的快速迭代的理想选择。这两个模型在工具使用、少样本函数调用、CoT推理（如在 Tau-Bench 智能体评估套件中的结果所示）以及 HealthBench 测试中表现强劲（甚至超越了 OpenAI o1 和 GPT‑4o 等专有模型）。