🔔科技频道[奇诺分享-ccino.org]⚡️
18:21 · 2025年4月2日 · 周三
机器之心
2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%
Telegraph
|
原文
Telegraph
2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5% - 机器之心
当 AI 翻开奥数题,CPU 也烧了! 还记得那些被奥数题折磨得彻夜难眠的日子吗? 当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!」 好消息:大模型解数学题的能力很强!坏消息:它们好像也被奥数折磨得不轻。 很多针对大型语言模型(LLMs)的数学基准测试已经表明,最先进的推理模型在美国数学邀请赛(AIME)等数学竞赛中表现出色,O3-MINI 模型甚至达到了与顶尖人类参赛者相当的水平。然而,这些测试仅仅评估了最终答案,而忽略了推理和证明过程。…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia