🔔科技频道[奇诺分享-ccino.org]⚡️
1 天前
机器之心
训练奖励太稀疏?港中文联合美团给Agent加上「过程分」
Telegraph
|
原文
Telegraph
训练奖励太稀疏?港中文联合美团给Agent加上「过程分」 - 机器之心
在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷网页、写代码、读文件的长链任务,就变成用一个 bit 去概括一整条复杂轨迹。 结果就是:差一点就做成功的过程,和从第一步就跑偏的过程,在奖励眼里没区别;训练看不出哪种失败更有价值,手写规则或人工细粒度打分又很难覆盖开放环境、多模态这些复杂情况。 港中文和美团在这篇工作里,盯上的就是这个核心矛盾: Agent…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia