🔔科技频道[奇诺分享-ccino.org]⚡️
2 天前
IT之家
指令跟随大比拼:Meta 发布多轮多语言基准 Multi-IF,覆盖 8 种语言超 4500 种任务
Telegraph
|
原文
Telegraph
指令跟随大比拼:Meta 发布多轮多语言基准 Multi-IF,覆盖 8 种语言超 4500 种任务 - IT之家
Meta 全新发布的基准 Multi-IF 涵盖八种语言、4501 个三轮对话任务,全面揭示了当前 LLM 在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的 o1-preview 模型在三轮对话的准确率从 87.7% 下降到 70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。 在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia