机器之心刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？ Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

13:59 · 2025年4月4日 · 周五

机器之心
刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？ Telegraph | 原文

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？ - 机器之心

这会是 DeepSeek R2 的雏形吗？本周五，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前，强化学习（RL）已广泛应用于大语言模型（LLM）的后期训练。最近 RL 对 LLM 推理能力的激励表明，适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。本周五提交的一项工作中，来自 DeepSeek、清华大学的研究人员探索了奖励模型（RM）的不同方法，发现逐点生成奖励模型（GRM）可以…

Powered by BroadcastChannel & Sepia