Workflow
Meta超级智能实验室新论文陷争议!被指忽略大量前人研究

论文核心观点 - Meta超级智能实验室(MSL)发表第二篇论文《Language Self-Play For Data-Free Training》提出Language Self-Play(LSP)方法 让大型语言模型在没有额外训练数据的情况下实现自我提升[1][2][3] - LSP将模型学习过程设计成博弈框架 让同一语言模型扮演挑战者和解决者两个角色进行对抗 实现无数据训练[4][5] - 该方法旨在应对大语言模型高度依赖大规模高质量训练数据且训练数据有限所带来的困境[4] 技术方法 - LSP采用极小极大博弈框架 挑战者不断生成刁钻问题以降低解决者预期回报 解决者努力回答问题以最大化自身回报[7] - 单一模型设计避免训练独立对抗模型的额外开销和不稳定性 通过特殊"挑战者提示"切换角色模式[8] - 采用GRPO技巧将博弈转化为强化学习过程 通过奖励机制使挑战者针对解决者薄弱环节生成问题[9][10] - 引入"自我质量奖励"(RQ)解决奖励黑客问题 引导博弈朝高质量交互发展使训练可长期进行[12][13] 实验效果 - 实验一显示未使用任何数据的LSP和LSP-Zero与使用数据的GRPO表现相当 且显著优于原始模型[18] - 在Vicuna对话型和开放式指令数据集上 LSP表现远超GRPO[18] - 实验二显示经过LSP进一步训练后 模型整体胜率从40.9%显著提升至43.1%[21] - 在Vicuna数据集上提升尤为明显 表明LSP可在数据驱动训练后继续挖掘模型潜力[22] 学术争议 - 论文被质疑忽视前人研究缺乏创新 网友指出未引用Andrew Zhao等人类似工作[25][26] - 网友提及多篇相关前期研究 包括Absolute Zero SPIRAL等论文 质疑其突破性[30] - 评论认为这可能是一篇老工作然后拿到MSL发表[30]