机器之心ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐 Telegraph | 原文

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐 - 机器之心

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。然而，随着对模型能力要求的日益严苛，DPO 的缺陷逐渐浮出水面。究竟该如何让 DPO 学会「去伪存真」，精准识别出那些真正决定胜负的 Critical Tokens？针对这一问题，来自中国科学院自动化研究所、字节跳动、微软亚洲研究院和北京科技大学的研究者们在被选为…

Powered by BroadcastChannel & Sepia