雷锋网从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026 | 🔔科技频道[奇诺分享-ccino.org]⚡️

雷锋网
从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026

从最优传输角度训练奖励模型：让 RLHF 学会「忽略错误偏好」丨ICML 2026 | 雷峰网

SelectiveRM：从点对点拟合噪声偏好，转向带选择机制的分布对齐，重构奖励模型的训练目标。

Powered by BroadcastChannel & Sepia