🔔科技频道[奇诺分享-ccino.org]⚡️

几天前，DeepSeek 毫无预兆地更新了 R1 论文，将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容，包括首次公开训练全路径，即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline，以及「Aha Moment」的数据化验证等等。 DeepSeek-R1 是在 2025 年 1 月 20 日发布的开源推理大模型，它拥有 6710 亿参数、单 Token 激活参数为 370 亿，并采用了 MoE 架构，训练效率得到了显著提升。 R1 在去年的推出震动了全球…