🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
IT之家
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
Telegraph
|
原文
Telegraph
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统 - IT之家
IT之家 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。 在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。 据介绍,Emu3…
Home
Powered by
BroadcastChannel
&
Sepia