🔔科技频道[奇诺分享-ccino.org]⚡️
17:20 · 2025年4月1日 · 周二
机器之心
DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文
Telegraph
|
原文
Telegraph
DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文 - 机器之心
过程透明化:通过思维链(CoT)等技术,将问题拆解为可解释的推理步骤,使模型决策路径可视化。 计算动态化:采用测试时间扩展(Test-Time Scaling)等策略在推理阶段动态分配更多计算资源处理复杂子问题。 训练强化:结合强化学习(如 RLHF)、对抗训练等方法,利用高难度推理任务数据集(如 MATH、CodeContests)进行微调,提升符号推理与逻辑连贯性。
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia