🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
机器之心
强化学习远不是最优,CMU刚刚提出最大似然强化学习
Telegraph
|
原文
Telegraph
强化学习远不是最优,CMU刚刚提出最大似然强化学习 - 机器之心
在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。 直觉上,开发者真正想要的其实很简单:让模型更有可能生成「正确轨迹」。从概率角度看,这等价于最大化正确输出的概率,也就是经典的最大似然(Maximum Likelihood)目标。 然而,一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实: 现实中广泛使用的强化学习,并没有真正在做最大似然优化。严格的理论分析显示,强化学习只是在优化最大似然目标的一阶近似 —— …
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia