机器之心ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！ Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！ Telegraph | 原文

ICLR 2026 | 数据缺少标注，RL还能稳定诱导模型推理吗？Co-rewarding提供自监督RL学习方案！ - 机器之心

本文来自香港浸会大学和上海交通大学的可信机器学习和推理组，已被 ICLR 2026 接收。目前，RLVR（Reinforcement Learning with Verifiable Rewards）已成为诱导大语言模型推理能力的主流技术路线。然而，RLVR 需要高质量标注数据来监督奖励获取，这一点是其可扩展性上的主要瓶颈。一旦走向不需要标注数据的 “自奖励（Self-rewarding）” 强化学习训练，模型往往会迅速陷入训练崩溃（Training Collapse），看似获取的奖励（Reward…

Powered by BroadcastChannel & Sepia