Qwen2.5-1M是什么?
Qwen2.5-1M是阿里巴巴Qwen团队发布的支持100万Token上下文的开源语言模型系列,包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它们结合了基于vLLM的推理框架和稀疏注意力机制,显著提升了处理长文本时的速度和效率。该模型在长上下文任务中表现优异,特别是在密钥检索等复杂任务中,超越了之前的Qwen2.5-Turbo和GPT-4o-mini。

Qwen2.5-1M的主要特性
- 大上下文支持:Qwen2.5-1M 支持最多 100 万个 Token 的上下文长度,相较于以往版本有显著突破,能够处理诸如超长文本、长部署场景中的知识检索等一系列复杂长序列任务。
- 开源模型:发布两个开源模型 —— Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,分别具有 70 亿和 140 亿参数,为开发者提供不同规模的选择,满足多样的应用场景需求。
- 推理框架优化:基于 vLLM 的推理框架完全开源,并集成了稀疏注意力方法,在处理百万长度输入时速度能够提升 3~7 倍,极大地提升推理效率,降低设备的显存需求。
- 训练方法改进:采用逐步扩展长度的训练方法,在多个阶段将上下文长度从 4K 扩展到 256K,有效降低训练难度并保证模型性能。监督微调阶段分两个阶段进行,既能增强长任务的性能,又保持短任务上的准确率。强化学习阶段在短文本上训练,也能很好地将人类偏好对齐性能泛化到长上下文任务中,涵盖了训练策略的优化。
- 性能表现:在长上下文任务中,如 100 万 Tokens 的大海捞针(Passkey Retrieval)任务,Qwen2.5-1M 系列模型能够准确地从长文档中检索出隐藏信息,其中仅有 7B 模型出现了少量错误,而 14B 模型不仅击败了 Qwen2.5-Turbo,还在多个数据集上稳定超越 GPT-4o-mini,成为长上下文模型的优秀开源替代方案。在短文本任务上,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 的表现与 128K 版本相当,确保了基本能力没有因支持长序列而受到影响,并且与 GPT-4o-mini 相比,实现了相近的性能,而上下文长度是其八倍。
- 本地部署要求:根据显存要求,Qwen2.5-7B-Instruct-1M 至少需要 120GB 显存,Qwen2.5-14B-Instruct-1M 至少需要 320GB 显存,可以通过设置减小
--max-model-len
值来减轻内存不足问题。
Qwen2.5-1M的相关资源
Qwen2.5-1M相关资源链接如下:
- 项目官网:https://qwenlm.github.io/zh/blog/qwen2.5-1m/
- 在线demo:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
- 模型地址:https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
- 技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。
