机器之心MIT韩松团队长上下文LLM推理高效框架DuoAttention | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理 Telegraph | 原文

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理 - 机器之心

本文第一作者肖光烜是麻省理工学院电子工程与计算机科学系（MIT EECS）的三年级博士生，师从韩松教授，研究方向为深度学习加速，尤其是大型语言模型（LLM）的加速算法设计。他在清华大学计算机科学与技术系获得本科学位。他的研究工作广受关注，GitHub上的项目累计获得超过9000颗星，并对业界产生了重要影响。他的主要贡献包括SmoothQuant和StreamingLLM，这些技术和理念已被广泛应用，集成到NVIDIA TensorRT-LLM、HuggingFace及Intel Neural Compr…

Powered by BroadcastChannel & Sepia