🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
机器之心
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!
Telegraph
|
原文
Telegraph
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案! - 机器之心
本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数据的 “自奖励(Self-rewarding)” 强化学习训练,模型往往会迅速陷入训练崩溃(Training Collapse),看似获取的奖励(Reward…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia