机器之心重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5% Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5% Telegraph | 原文

重塑注意力机制：GTA登场，KV缓存缩减70%、计算量削减62.5% - 机器之心

GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学（广州）联合研发，提出了一种高效的大模型框架，显著提升模型性能与计算效率。一作为自动化所的孙罗洋博士生，研究方向为：大模型高效计算与优化，通讯作者为香港科技大学（广州）的邓程博士、自动化所张海峰教授及伦敦大学学院汪军教授。该成果为大模型的优化部署提供了创新解决方案。 Grouped-head latent Attention (GTA) 震撼登场！这项创新机制通过共享注意力矩阵和压缩潜在值表示，将计算量削减 62.5%，KV 缓存缩减 70%，prefill…

Powered by BroadcastChannel & Sepia