🔔科技频道[奇诺分享-ccino.org]⚡️
15 小时前
雷锋网
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式
Telegraph
|
原文
Telegraph
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式 - 雷锋网
过去几年,大语言模型的能力提升主要依赖参数和数据规模的扩张。但当模型逐步被用于研究助理、网页搜索和复杂决策支持等真实任务时,这条路径开始显露边界。 这类场景往往要求模型在开放环境中进行多轮搜索与推理,使搜索增强推理成为主流范式,同时也暴露出一个核心问题:模型在长链搜索推理中的失败,往往不是因为推理能力不足,而是无法有效处理错误在推理过程中的出现与传播。 在现实任务中,搜索结果不可避免地包含噪声,一旦早期某次检索或信息采信出现偏差,后续推理就可能在错误语义空间中不断自洽,最终生成看似合理却偏离问题的答案。…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia