-
Xiaomi MiMo-V2-Omni:小米全模态 Agent 基座模型,图像视频音频文本统一理解
Xiaomi MiMo-V2-Omni 是小米 MiMo 团队发布的全模态 Agent 基座模型,将图像、视频、音频编码器融合进统一骨干网络,原生支持结构化工具调用、函数执行与 UI 定位。音频理解超越 Gemini 3 Pro,图像理解超越 Claude Opus 4.6,多模态 Agent 评测超越 Gemini 3 Pro 和 GPT-5.2,支持超过 10 小时连续音频理解,现已开放 AP…- 1k
- 0
-
Video-XL:智源等推出的小时级超长视频理解大模型
Video-XL是一款创新性的长视频理解大模型,与现有的短视频模型相比,Video-XL在处理长视频时表现出卓越的效率和准确性,适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术,Video-XL能在单块80G显卡上支持2048帧的视频分析任务,并在主流视频理解基准上取得领先成绩。- 8.8k
- 0



