🔔科技频道[奇诺分享-ccino.org]⚡️
13:59 · 2025年4月4日 · 周五
机器之心
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
Telegraph
|
原文
Telegraph
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了? - 机器之心
这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。 当前,强化学习(RL)已广泛应用于大语言模型(LLM)的后期训练。最近 RL 对 LLM 推理能力的激励表明,适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。 本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia