🔔科技频道[奇诺分享-ccino.org]⚡️
5 天前
机器之心
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
Telegraph
|
原文
Telegraph
Meta超级智能实验室又发论文,模型混一混,性能直接SOTA - 机器之心
模型也要学会取长补短。 大语言模型(LLM)在众多领域展现出卓越的能力,但它们的训练依然高度依赖算力和时间,需要庞大的计算资源以及精细的训练流程设计。 模型 Souping(Model Souping) ,即对同一架构的多个模型进行权重平均,形成一个新的、更强的模型。相比训练一个庞大的统一模型,souping 更轻量、成本更低,同时能够融合模型的互补能力。 然而,传统的模型 souping 方式通常采用简单的均匀平均,即把所有候选模型的参数直接做等权融合。 本文中,来自 Meta、伦敦大学学院机构的研究者提出类专家…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia