LongCat-Flash-Thinking 是什么
LongCat-Flash-Thinking 是美团 LongCat 团队开源的 5600 亿参数大推理模型,采用 Mixture-of-Experts 架构与动态激活机制,实际推理仅需约 270 亿参数。模型在数学、逻辑、编程、自动定理证明等任务中表现突出,并通过课程学习、强化学习和域并行训练显著提升推理能力。支持工具调用,已在 MMLU-Pro、AIME25 等基准测试中取得优异成绩,可在 longcat.ai 及多框架中部署。

LongCat-Flash-Thinking 的主要特性
- 超大规模参数:总参数量 5600 亿,采用 Mixture-of-Experts 架构,实际激活参数约 270 亿,兼顾性能与效率。
- 高效推理能力:专注数学、逻辑、编程、自动定理证明等复杂推理任务,长链推理表现优异。
- 动态激活机制:根据输入上下文智能选择专家子网络,减少计算成本并提升推理效果。
- 两阶段训练:先通过课程学习 + SFT 冷启动推理能力,再用大规模 RL 强化学习提升表现。
- 域并行训练:在 STEM、编码、Agent 推理等不同领域分别训练专家模型,最后融合提升泛化能力。
- 工具调用支持:具备 agentic reasoning 能力,可调用外部工具解决复杂组合任务。
- 开源友好:MIT 许可,提供模型部署与推理指南,兼容 SGLang、vLLM 等框架。
LongCat-Flash-Thinking 的性能评测
LongCat-Flash-Thinking在多项权威评测中刷新纪录,在各类推理任务中均展现出持续领先的性能:

- 通用推理能力:LongCat-Flash-Thinking 具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在 ARC-AGI 基准测试中以 50.3 分超越 OpenAI o3、Gemini2.5 Pro 等顶尖闭源模型。
- 数学能力:LongCat-Flash-Thinking 在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在 HMMT 和 AIME 相关基准上取得突破性成绩,超越 OpenAI o3,和 Qwen3-235B-A22B-Thinking 等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。
- 代码能力:在编程领域,LongCat-Flash-Thinking 展现出开源模型最先进的性能(SOTA)与综合实力。在 LiveCodeBench 上以 79.4 分显著超越参与评估的开源模型,并与顶级闭源模型 GPT-5 表现相当,证明其解决高难度编程竞赛问题的卓越能力。在 OJBench 基准测试中也以 40.7 的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。
- 智能体能力:LongCat-Flash-Thinking 在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在 τ2-Bench 上以 74.0 分刷新开源SOTA成绩,并在包括 SWE-Bench、BFCL V3 和 VitaBench 等基准测试中展现出超强竞争力。
- ATP 形式推理能力:LongCat-Flash-Thinking 在 MiniF2F-test 基准中的 pass@1 获得67.6的分数,大幅领先所有其他参与评估的模型,在 pass@8 和 pass@32 中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。
LongCat-Flash-Thinking 的开源信息
目前, 该模型已在HuggingFace、Github全面开源:
- Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
- Github:https://github.com/meituan-longcat/LongCat-Flash-Thinking
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

