AIHub最新消息,2024年12月25日,阿里云通义千问正式发布全球首个开源多模态推理模型 QVQ-72B-Preview。该模型以超强的视觉理解与推理能力引领行业,特别在解决数学、物理和科学等复杂问题上表现尤为出色。目前,开发者可通过 魔搭社区 和 HuggingFace 平台 直接体验。
核心技术亮点:
- 视觉推理能力突破:
- QVQ 基于 Qwen2-VL-72B 模型优化,支持逐步推理与深度视觉分析,显著提升复杂问题的解答能力。
- 模型能够精准感知视觉内容,对图片进行详细的推理,如物体高度估算、数量推断,以及“梗图”内涵的识别。
- 卓越的评测表现:
- MMMU(多模态任务理解):得分 70.3,达到大学推理水平。
- MathVista(数学推理):超越 OpenAI o1,展现强大图形推理能力。
- MathVision 和 OlympiadBench:在多学科广度和奥赛难度测试中分别超过 Claude 3.5 和 GPT-4o。
- 开源与生态支持:
- QVQ-72B 已开源至 HuggingFace,并受到全球开发者热烈追捧。
- 截至目前,通义千问的模型衍生数已突破 7.8万个,成为全球规模最大的 AI 模型群。
QVQ-72B-Preview 是阿里云在 AI 推理领域的又一重磅突破,其强大的视觉推理能力与开放生态为开发者提供了全新工具,加速推动多模态 AI 技术的应用落地。
©版权声明:如无特殊说明,本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。