阿里通义发布最强开源多模态推理模型QVQ

AI资讯
24年12月26日
编辑

AIHub最新消息，2024年12月25日，阿里云通义千问正式发布全球首个开源多模态推理模型 QVQ-72B-Preview。该模型以超强的视觉理解与推理能力引领行业，特别在解决数学、物理和科学等复杂问题上表现尤为出色。目前，开发者可通过魔搭社区和 HuggingFace 平台直接体验。

QVQ-72B-Preview

核心技术亮点：

视觉推理能力突破：
- QVQ 基于 Qwen2-VL-72B 模型优化，支持逐步推理与深度视觉分析，显著提升复杂问题的解答能力。
- 模型能够精准感知视觉内容，对图片进行详细的推理，如物体高度估算、数量推断，以及“梗图”内涵的识别。
卓越的评测表现：
- MMMU（多模态任务理解）：得分 70.3，达到大学推理水平。
- MathVista（数学推理）：超越 OpenAI o1，展现强大图形推理能力。
- MathVision 和 OlympiadBench：在多学科广度和奥赛难度测试中分别超过 Claude 3.5 和 GPT-4o。
开源与生态支持：
- QVQ-72B 已开源至 HuggingFace，并受到全球开发者热烈追捧。
- 截至目前，通义千问的模型衍生数已突破 7.8万个，成为全球规模最大的 AI 模型群。

QVQ-72B-Preview 是阿里云在 AI 推理领域的又一重磅突破，其强大的视觉推理能力与开放生态为开发者提供了全新工具，加速推动多模态 AI 技术的应用落地。

©版权声明：如无特殊说明，本站所有内容均为AIHub.cn原创发布和所有。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则，我站将依法保留追究相关法律责任的权利。

开源模型通义千问

TOP1

豆包 - 字节跳动旗下免费AI智能助手
23年8月17日
TOP2

SpeedAI - 专业的AIGC检测、降重降AI平台
4月30日
TOP3

千问 - 阿里旗下 AI 智能助手
4月15日
LibTV - LiblibAI 推出的 AI 视频创作平台，剧本分镜成片一站式完成
3月18日
星流 - LiblibAI 推出的一站式 AI 设计 Agent
24年12月6日
讯飞智文 - 科大讯飞推出的 AI PPT 与文档生成工具
23年11月16日

TOP1

GPT-Live：OpenAI 新一代实时语音交互模型
10小时前
TOP2

暴喵 AI 管家 - 面向 Windows 和 macOS 用户的 AI 编程工具助手
23小时前
TOP3

Skild Art - 一站式 AI 视觉创作平台，为商业营销而生
7月11日
deep-skill-finder：真实任务验证的 Skill 匹配引擎
7月11日
墨镜熊 - 主打加密与密态计算的 AI 隐私对话助手
7月10日
Ofox - 面向开发者的大模型 API 聚合平台
7月7日