🔔科技频道[奇诺分享-ccino.org]⚡️
16:35 · 2024年10月28日 · 周一
IT之家
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
Telegraph
|
原文
Telegraph
一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限 - IT之家
长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理 10 分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。 对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型 Video-XL。 Video-XL 借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,而且在长视频理解上展现了出色的泛化能力。 Video-XL 相较于同等参数规模的模型,在多个主…
Home
Powered by
BroadcastChannel
&
Sepia