🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
机器之心
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
Telegraph
|
原文
Telegraph
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5% - 机器之心
GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性能与计算效率。一作为自动化所的孙罗洋博士生,研究方向为:大模型高效计算与优化,通讯作者为香港科技大学(广州)的邓程博士、自动化所张海峰教授及伦敦大学学院汪军教授。该成果为大模型的优化部署提供了创新解决方案。 Grouped-head latent Attention (GTA) 震撼登场!这项创新机制通过共享注意力矩阵和压缩潜在值表示,将计算量削减 62.5%,KV 缓存缩减 70%,prefill…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia