🔔科技频道[奇诺分享-ccino.org]⚡️
15 小时前
雷锋网
创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文
Telegraph
|
原文
Telegraph
创新Transformer!面壁基于稀疏-线性混合架构SALA训练9B模型,端侧跑通百万上下文 - 雷锋网
众所周知,Transformer 及其核心的全注意力机制(Full Attention)虽长期占据大模型架构的核心地位,但平方级计算复杂度、高额显存占用的瓶颈,早已成为实现超长上下文处理与模型规模化应用的 “拦路虎”。敢于挑战这一固有权威,需要的不仅是实现 AGI 长远目标勇于创新的魄力,更需要有独到的技术视野以及突破技术壁垒的硬实力。从 DeepSeek 的稀疏注意力(DSA)、MiniMax 的线性注意力、到月之暗面的线性注意力(KDA),大家纷纷投入注意力架构的革新竞技场。 今天,面壁智能也在这场…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia