雷锋网清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

雷锋网
清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026 Telegraph | 原文

清华刘知远团队论文：在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026 - 雷锋网

随着大语言模型规模和预训练强度的不断提升，强化学习在后训练阶段的角色正在发生微妙变化。一方面，它仍然是当前提升模型推理能力和多步决策表现的关键技术手段；另一方面，越来越多的经验性结果表明，在许多任务上，强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。尤其是在 pass@k 等评测指标下，强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小，这使得一种观点逐渐占据上风：强化学习可能更多是在对模型内部已有解法进行筛选和重排，而非真正拓展模型的能力边界。问题在于，这一判断本身并不容…

Powered by BroadcastChannel & Sepia