IT之家指令跟随大比拼：Meta 发布多轮多语言基准 Multi-IF，覆盖 8 种语言超 4500 种任务 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

IT之家
指令跟随大比拼：Meta 发布多轮多语言基准 Multi-IF，覆盖 8 种语言超 4500 种任务 Telegraph | 原文

指令跟随大比拼：Meta 发布多轮多语言基准 Multi-IF，覆盖 8 种语言超 4500 种任务 - IT之家

Meta 全新发布的基准 Multi-IF 涵盖八种语言、4501 个三轮对话任务，全面揭示了当前 LLM 在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的 o1-preview 模型在三轮对话的准确率从 87.7% 下降到 70.7%；在非拉丁文字语言上，所有模型的表现显著弱于英语。在大语言模型（LLMs）不断发展的背景下，如何评估这些模型在多轮对话和多语言环境下的指令遵循（instruction following）能力，成为一个重要的研究方向。现有评估基准多集中于单…

Powered by BroadcastChannel & Sepia