🔔科技频道[奇诺分享-ccino.org]⚡️
15:10 · 2025年4月2日 · 周三
cnBeta
美国奥数题撕碎AI数学神话 顶级模型现场翻车
Telegraph
|
原文
Telegraph
美国奥数题撕碎AI数学神话 顶级模型现场翻车 - cnBeta
论文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf 鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊—— 所有大模型的得分,都低于5%! DeepSeek-R1表现最好,得分为4.76%;而表现最差的OpenAI o3-mini(high)比上一代o1-pro(high)还差,得分为2.08%。 各顶尖模型在2025 USAMO中的得分 就在今天,这项…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia