🔔科技频道[奇诺分享-ccino.org]⚡️

最近，像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型（Large Reasoning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在推理任务上表现惊艳。但随之而来的是一个日益严重的问题：它们太能「说」了！生成的推理过程往往充斥着冗余信息（比如反复定义）、对简单问题过度分析，以及对难题的探索浅尝辄止。正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 个 token，而它的 LRM 版本 QwQ-32B…