机器之心华为新开源！扩散语言模型突破32K上下文，还解锁了「慢思考」 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
华为新开源！扩散语言模型突破32K上下文，还解锁了「慢思考」 Telegraph | 原文

华为新开源！扩散语言模型突破32K上下文，还解锁了「慢思考」 - 机器之心

今年，文本生成领域迎来了从自回归（Auto-Regressive）向扩散语言模型（Diffusion LM）的重要范式转变。然而，长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务，尤其是需要深度推理的「慢思考」场景时，显得捉襟见肘。华为近日正式发布 openPangu-R-7B-Diffusion，基于openPangu-Embedded-7B 进行少量数据（800B tokens）续训练，成功将扩散语言模型的上下文长度扩展至 32K。在「慢…

Powered by BroadcastChannel & Sepia