🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
机器之心
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
Telegraph
|
原文
Telegraph
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理 - 机器之心
本文第一作者肖光烜是麻省理工学院电子工程与计算机科学系(MIT EECS)的三年级博士生,师从韩松教授,研究方向为深度学习加速,尤其是大型语言模型(LLM)的加速算法设计。他在清华大学计算机科学与技术系获得本科学位。他的研究工作广受关注,GitHub上的项目累计获得超过9000颗星,并对业界产生了重要影响。他的主要贡献包括SmoothQuant和StreamingLLM,这些技术和理念已被广泛应用,集成到NVIDIA TensorRT-LLM、HuggingFace及Intel Neural Compr…
Home
Powered by
BroadcastChannel
&
Sepia