机器之心Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

18:31 · 2025年4月4日 · 周五

机器之心
Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer Telegraph | 原文

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer - 机器之心

Attention 还在卷自己。当上下文包含大量 Token 时，如何在忽略干扰因素的同时关注到相关部分，是一个至关重要的问题。然而，大量研究表明，标准注意力在这种情况下可能会出现性能不佳的问题。标准多头注意力的工作原理是使用点积比较当前查询向量与上下文 Token 对应的键向量的相似性。与查询相似的关键字会获得更高的注意力权重，随后其值向量会主导输出向量。例如，与「Alice」Token 相对应的查询向量能够定位上下文中所有提及「Alice」的内容。然而，每个注意力权重只取决于单个关键字和查询向量（除了归一化为…

Powered by BroadcastChannel & Sepia