Video-XL：智源等推出的小时级超长视频理解大模型

Video-XL是什么？

Video-XL是一款创新性的长视频理解大模型，由智源研究院联合上海交通大学、中国人民大学、北京大学等多所高校开发，专门设计用于小时级视频的分析和理解。与现有的短视频模型相比，Video-XL在处理长视频时表现出卓越的效率和准确性，适用于电影摘要、广告检测、异常事件识别等多种应用场景。通过深度优化的视觉压缩和上下文建模技术，Video-XL能在单块80G显卡上支持2048帧的视频分析任务，并在主流视频理解基准上取得领先成绩。

Video-XL的主要特性

全面的长视频理解能力：Video-XL能够高效解析小时级长视频，突破了传统模型在处理长视频时的性能瓶颈。在 MLVU、VideoMME、VNBench 和 LongVideoBench 上，Video-XL 7B 实现了在 7B 型号中领先的性能。
高效的长视觉上下文处理：Video-XL 可在 80G GPU 上处理 2048 个帧，并在视频「大海捞针」任务中取得了接近95%的准确率。
适应复杂场景：Video-XL 在一些实际应用场景中显示出强大的能力，如电影摘要、监控异常检测和广告投放识别。

Video-XL：智源等推出的小时级超长视频理解大模型 — *(左图）不同模型的性能和最大帧数。*(右图）在单个 80G GPU 上进行的“大海捞针”任务评估结果。

Video-XL的应用场景

电影摘要：Video-XL能够在长视频中精准识别和提取关键情节和事件，快速生成电影内容的摘要。这一功能使得观众可以在短时间内了解影片的主要情节，帮助影视平台提高用户观影体验，同时也为电影推荐和内容筛选提供了高效的解决方案。
监控异常检测：在监控视频的分析中，Video-XL可以自动识别视频中的异常行为或突发事件，如异常的人员活动或物品遗留。这种能力大大提升了监控系统的智能化水平，帮助安防团队快速反应，保障公共安全，尤其适合应用于安防监控和应急响应领域。
广告投放识别：Video-XL能够在长视频中高效识别并定位广告植入片段，支持广告的精准检索和分析。这一功能为视频平台和品牌商提供了广告审核和效果追踪的便捷手段，有助于确保广告投放的准确性，并帮助优化品牌的内容营销策略。