Meta超级智能实验室新论文陷争议!被指忽略大量前人研究
henry 发自 凹非寺 量子位 | 公众号 QbitAI 究竟是啥论文? 让模型在博弈中学习 总的来说,MSL这篇新论文的核心思想是通过一种 Language Self-Play (LSP)的方法,让大型语言模型 在没有额外训练数据的情况下实 现自我提升 。 这一方法旨在应对当前大语言模型高度依赖大规模、高质量训练数据,且训练数据有限所带来的困境。 为此,LSP将模型的学习过程设计成一个博弈框架,让同一个语言模型扮演两个角色进行对抗,从而实现无数据训练。 Meta超级智能实验室(MSL)又被送上争议的风口浪尖了。 不过,这次不是人事风波,而是他们的 第二篇 论文《Language Self-Play For Data-Free Training》被质疑 忽视前人研究、缺乏创新 。 具体来说,这两个角色分别是: 在对抗过程中,挑战者不断生成越来越刁钻的问题或指令,以降低解决者的预期回报;而解决者则必须努力理解并回答这些指令,以最大化自 身回报——这其实就是我们熟悉的极小极大博弈(minimax game)。 通过这样的对抗训练,模型能够在不断博弈中持续改进,逐步提升能力。 此外,与传统对抗训练不同,LSP让 ...