机器之心思维链不可靠：Anthropic曝出大模型「诚信」问题，说一套做一套 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

13:59 · 2025年4月4日 · 周五

机器之心
思维链不可靠：Anthropic曝出大模型「诚信」问题，说一套做一套 Telegraph | 原文

思维链不可靠：Anthropic曝出大模型「诚信」问题，说一套做一套 - 机器之心

自去年以来，我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」，有条不紊地展示思维链过程，并最终输出一份近乎完美的答案。对于研究人员来说，思考过程的公开可以帮助他们检查模型「在思维链中说过但在输出中没有说」的事情，以便防范欺骗等不良行为。但这里有一个至关重要的问题：我们真的能相信模型在「思维链」中所说的话吗？ Anthropic 最新的一项对齐研究表明：别信！看似分析得头头是道的大模型，其实并不可靠。论文标题：Reasoning Models Don’t Always Say What…

Powered by BroadcastChannel & Sepia