🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
机器之心
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐
Telegraph
|
原文
Telegraph
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 - 机器之心
在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。 然而,随着对模型能力要求的日益严苛,DPO 的缺陷逐渐浮出水面。 究竟该如何让 DPO 学会「去伪存真」,精准识别出那些真正决定胜负的 Critical Tokens? 针对这一问题,来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia