机器之心在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

12:01 · 2025年4月1日 · 周二

机器之心
在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电 Telegraph | 原文

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电 - 机器之心

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。之后，GRPO 会使用一个基于规则的奖励函数来计算每个完成结果的奖励，并计算每个完成结果的相对优势。为了保证训练的稳定性，GRPO 还会计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比作为策略目标函数的一部分，这又会进一步提升强化学习的训练开销。GRPO…

Powered by BroadcastChannel & Sepia