🔔科技频道[奇诺分享-ccino.org]⚡️
13:59 · 2025年4月4日 · 周五
机器之心
思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套
Telegraph
|
原文
Telegraph
思维链不可靠:Anthropic曝出大模型「诚信」问题,说一套做一套 - 机器之心
自去年以来,我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」,有条不紊地展示思维链过程,并最终输出一份近乎完美的答案。 对于研究人员来说,思考过程的公开可以帮助他们检查模型「在思维链中说过但在输出中没有说」的事情,以便防范欺骗等不良行为。 但这里有一个至关重要的问题:我们真的能相信模型在「思维链」中所说的话吗? Anthropic 最新的一项对齐研究表明:别信!看似分析得头头是道的大模型,其实并不可靠。 论文标题:Reasoning Models Don’t Always Say What…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia