机器之心大模型作为评估者的「偏好」困境：UDA实现无监督去偏对齐 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
大模型作为评估者的「偏好」困境：UDA实现无监督去偏对齐 Telegraph | 原文

大模型作为评估者的「偏好」困境：UDA实现无监督去偏对齐 - 机器之心

在 LLM 评估体系日益依赖 "大模型担任评估者"（LLM-as-a-Judge）的今天，一个隐秘且严重的问题正在扭曲大模型的评估生态：偏好偏差。即使是性能强劲的 GPT-4o 和 DeepSeek-V3，在进行成对答案比较时，也会系统性地偏爱特定输出 —— 尤其是自己生成的内容。这种偏差导致不同裁判模型给出的评分和排名天差地别。论文中的实验数据显示，在 ArenaHard 数据集上，自我偏好偏差幅度从 - 38% 到 + 90% 不等。当模型既是 "运动员" 又是 "裁判" 时，公平性无从谈起。现…

Powered by BroadcastChannel & Sepia