全部标签

多模态大模型

阿里发布 Qwen3.7-Plus：面向多模态智能体的视觉语言模型

2026 年 6 月 2 日，阿里 Qwen 团队正式发布 Qwen3.7-Plus，这是一款面向多模态智能体场景的新模型，核心定位是将视觉理解与语言推理统一到同一个模型基础中，让 AI 不仅能处理文本任务，也能理解图像、视频和界面信息。 👉 访问千问，体验阿里最强大模型根据官方介绍，Qwen3.7-Plus 是基于 Qwen3.7 强大的文本能力进一步升级而来，重点增强了视觉语言理解能力，适合…
AI资讯
- 2.3k
- 0
AIHub6月2日
Qwen3.7-Plus - 阿里巴巴推出的新一代多模态智能体模型

Qwen3.7-Plus 是阿里巴巴 Qwen 团队推出的新一代多模态智能体模型，定位为面向 Agent 场景的视觉语言基础模型。它在 Qwen3.7 系列能力基础上，进一步强化视觉理解、语言推理和多模态任务处理能力，可将图像、视频、文本等信息统一到智能体工作流中，用于完成视觉问答、界面理解、文档分析、代码辅助、生产力自动化等复杂任务。
AI模型
- 2.1k
- 0
AIHub6月2日
Seele AI- 全球首个AI生成3D游戏多模态大模型

Seele（SEELE AI）是全球首个AI生成3D游戏的多模态大模型，支持通过自然语言一键生成角色、场景、玩法与互动机制。无论是创作者、游戏开发者、叙事者还是教育工作者，都能借助Seele轻松构建沉浸式3D游戏世界，实现零门槛创作与快速迭代。
AI工具
- 16.9k
- 0
AIHub25年9月1日
Qwen VLo - 阿里推出的多模态统一理解与生成模型

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型，具备强大的图文双向交互能力。它不仅能精准理解图像内容，还能根据自然语言指令进行高质量的图像生成与编辑，支持风格迁移、背景更换、物体添加等多种操作
AI模型
- 4.9k
- 0
AIHub25年6月28日
GPT-4.1：OpenAI 推出的新一代语言模型，支持百万上下文

GPT-4.1 是 OpenAI 推出的新一代语言模型，包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个版本。它在编码能力、指令遵循和长文本处理等方面有显著提升，支持高达 100 万个 token 的上下文窗口。
AI模型
- 4.3k
- 0
AIHub25年4月15日
Monkey：华中科技大学开源的多模态大模型

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。
AI模型
- 12.4k
- 0
AIHub23年12月10日
Gemini-谷歌发布的多模态AI大模型

AIHub 12 月 6 日消息，谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态AI模型 Gemini。意味着它可以理解、操作和结合不同类型的信息，包括文本、代码、音频、图像和视频。
AI模型
- 36.1k
- 0
AIHub23年12月6日
NExT-GPT：开源全能多模态AI大模型

新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出，可以实现文本、图像、语音和视频之间的自由转换，是第一个实现从任一模态到任一模态转换的通用多模态系统。
AI模型
- 6.5k
- 0
AIHub23年9月18日
CoDi-多模态 AI 大模型

CoDi 是一个新颖的生成模型，能够从任何组合的输入模态生成任何组合的输出模态
AI模型
- 8.2k
- 0
AIHub23年6月26日
Meta-ImageBind开源多模态AI大模型

ImageBind能够将多种数据流，包括文本、音频、视觉数据、温度和运动读数等整合在一起。
AI模型
- 6.5k
- 0
AIHub23年5月10日