🔔科技频道[奇诺分享-ccino.org]⚡️
1 天前
机器之心
ICLR 2026 | 北航开源Code2Bench:双扩展动态评测,代码大模型告别躺平刷分
Telegraph
|
原文
Telegraph
ICLR 2026 | 北航开源Code2Bench:双扩展动态评测,代码大模型告别躺平刷分 - 机器之心
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正确的幻觉」(Illusion of Correctness)—— 模型生成的代码或许能通过少数示例,却在复杂的真实世界边缘场景中不堪一击。 为了打破…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia