🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
机器之心
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
Telegraph
|
原文
Telegraph
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境 - 机器之心
在 LLM 优化领域,有两个响亮的名字:Adam(及其变体 AdamW)和 Muon。 它们一个是久经沙场的「守门员」,凭借动量和自适应学习率统治了深度学习的半壁江山,却在面对十亿级参数的混合精度训练时,常常因数值不稳定性而显得力不从心;一个是横空出世的「破局者」,试图通过将权重矩阵视为整体来重塑训练几何,却因为一刀切(one-size-fits-all approach)的系数设计和对异常值噪声的极度敏感,在鲁棒性上留下了缺口。 当训练规模不断指数级膨胀,我们是否只能在 Adam 的「稳」与 Muon…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia