🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
机器之心
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」
Telegraph
|
原文
Telegraph
华为新开源!扩散语言模型突破32K上下文,还解锁了「慢思考」 - 机器之心
今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务,尤其是需要深度推理的「慢思考」场景时,显得捉襟见肘。 华为近日正式发布 openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B 进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至 32K。 在「慢…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia