全部标签

全模态

Xiaomi MiMo-V2-Omni：小米全模态 Agent 基座模型，图像视频音频文本统一理解

Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型，将图像、视频、音频编码器融合进统一骨干网络，原生支持结构化工具调用、函数执行与 UI 定位。音频理解超越 Gemini 3 Pro，图像理解超越 Claude Opus 4.6，多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2，支持超过 10 小时连续音频理解，现已开放 AP…
AI模型
- 2.4k
- 0
AIHub3月19日