机器之心ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分 Telegraph | 原文

ICLR 2026 | 北航开源Code2Bench：双扩展动态评测，代码大模型告别躺平刷分 - 机器之心

在衡量大语言模型（LLM）代码生成能力的竞赛中，一个日益严峻的问题正浮出水面：当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时，我们究竟是在评估其真实的泛化推理能力，还是在检验其对训练语料库的「记忆力」？现有的代码基准正面临两大核心挑战：数据污染的风险，以及测试严谨性不足。前者使评测可能退化为「开卷考试」，后者则常常导致一种「正确的幻觉」（Illusion of Correctness）—— 模型生成的代码或许能通过少数示例，却在复杂的真实世界边缘场景中不堪一击。为了打破…

Powered by BroadcastChannel & Sepia