机器之心训练奖励太稀疏？港中文联合美团给Agent加上「过程分」 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
训练奖励太稀疏？港中文联合美团给Agent加上「过程分」 Telegraph | 原文

训练奖励太稀疏？港中文联合美团给Agent加上「过程分」 - 机器之心

在很多大模型和 Agent 的训练里，最常见的一种做法就是只看结果：最后答案对了就给奖励，错了就当 0 分。在单轮问答里，这样「只看结果」还勉强能用；可一旦换成 Agent 这种要多轮对话、搜索、刷网页、写代码、读文件的长链任务，就变成用一个 bit 去概括一整条复杂轨迹。结果就是：差一点就做成功的过程，和从第一步就跑偏的过程，在奖励眼里没区别；训练看不出哪种失败更有价值，手写规则或人工细粒度打分又很难覆盖开放环境、多模态这些复杂情况。港中文和美团在这篇工作里，盯上的就是这个核心矛盾： Agent…

Powered by BroadcastChannel & Sepia