机器之心2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5% Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

18:21 · 2025年4月2日 · 周三

机器之心
2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5% Telegraph | 原文

2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5% - 机器之心

当 AI 翻开奥数题，CPU 也烧了！还记得那些被奥数题折磨得彻夜难眠的日子吗？当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候，你可能会想：「要是有个超级大脑能帮我解决这些问题该多好啊！」好消息：大模型解数学题的能力很强！坏消息：它们好像也被奥数折磨得不轻。很多针对大型语言模型（LLMs）的数学基准测试已经表明，最先进的推理模型在美国数学邀请赛（AIME）等数学竞赛中表现出色，O3-MINI 模型甚至达到了与顶尖人类参赛者相当的水平。然而，这些测试仅仅评估了最终答案，而忽略了推理和证明过程。…

Powered by BroadcastChannel & Sepia