机器之心SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」 Telegraph | 原文

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」 - 机器之心

本论文由新加坡国立大学、A*STAR 前沿人工智能研究中心、东北大学、Sea AI Lab、Plastic Labs、华盛顿大学的研究者合作完成。刘博、Leon Guertler、余知乐、刘梓辰为论文共同第一作者。刘博是新加坡国立大学博士生，研究方向为可扩展的自主提升，致力于构建能在未知环境中智能决策的自主智能体。Leon Guertler 是 A*STAR 前沿人工智能研究中心研究员，专注于小型高效语言模型研究。余知乐是东北大学博士生，研究方向为语言模型的对齐和后训练。刘梓辰是新加坡国立大学和 Sea…

Powered by BroadcastChannel & Sepia