机器之心视频、图像、文本，只需基于下一个Token预测 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式 Telegraph | 原文

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式 - 机器之心

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点：只要能够非常好的预测下一个 token，就能帮助人类达到通用人工智能（AGI）。虽然，下一 token 预测已在大语言模型领域实现了 ChatGPT 等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型（如 Stable Diffusion）和组合方法（如结合 CLIP 视觉编码器和 LLM）所主导。 2024 年 10 月 21 日，智源研究院正式发布原生多模态世界模型 Emu3。该模型只基于下一个…

Powered by BroadcastChannel & Sepia