全部标签

视频理解

Xiaomi MiMo-V2-Omni：小米全模态 Agent 基座模型，图像视频音频文本统一理解

Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型，将图像、视频、音频编码器融合进统一骨干网络，原生支持结构化工具调用、函数执行与 UI 定位。音频理解超越 Gemini 3 Pro，图像理解超越 Claude Opus 4.6，多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2，支持超过 10 小时连续音频理解，现已开放 AP…
AI模型
- 2.4k
- 0
AIHub3月19日
Video-XL：智源等推出的小时级超长视频理解大模型

Video-XL是一款创新性的长视频理解大模型，与现有的短视频模型相比，Video-XL在处理长视频时表现出卓越的效率和准确性，适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术，Video-XL能在单块80G显卡上支持2048帧的视频分析任务，并在主流视频理解基准上取得领先成绩。
AI模型
- 9.1k
- 0
AIHub24年10月29日