🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
爱范儿
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋
Telegraph
|
原文
Telegraph
扒完 DeepSeek V4 报告,我翻出了这个隐藏彩蛋 - 爱范儿
今天上午,DeepSeek V4 发布,直接把这个大模型疯狂更新月推向了最高潮。 百万上下文标配,性能比肩顶级闭源模型,首发适配华为昇腾芯片,随便一个点单拎出来能写一篇爆款头条。 不过在我翻看 V4 的技术报告的时候,在训练层面看到了一个被大部分人滑过去的名词:Muon 优化器。 这个技术名词,怎么看着这么眼熟呢? 原来是前两天发布的 Kimi 2.6 里,就是通过 Muon优化器,在相同的训练量下实现了2倍的效率提升,并在 1 万亿参数规模上解决了训练不稳定的难题。 早在上个月杨植麟站在英伟达 GTC…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia