Workflow
自博弈技术
icon
搜索文档
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
Founder Park· 2025-10-13 18:57
VLM 的数据缺乏已经影响到模型的能力提升了,最近的一项研究试图学习 AlphaGo 的自我迭代方式, 实现能力提升。 AlphaGo 不依赖于学习人类的棋谱,通过「左右互搏」的方式分裂成两个自己来下棋,从胜负结果中学 习,实现了自我迭代优化。 那 VLM 能不能像 AlphaGo 一样,在不依赖人类标注数据的情况下,通过 self-play 来「修炼」自己? 来自杜克大学、新加坡国立大学、马里兰大学和 Adobe 的研究人员提出的「Vision-Zero」这项工作,为 实现 VLM 的零监督训练提供了一个通用框架。 简单来说,研究者设计了一套让 AI 自己和自己玩游戏来学习的框架,类似于「谁是卧底」游戏,通过 制定游戏规则,以及「交替训练」策略,让 VLM 实现自我进化。 实验结果表明,在没有用任何标注数据做训练,Vision-Zero 在推理,图表问答和 Vision-Centric 理解任 务上超越了其他有标注的 SOTA 后训练方法。 以下为这项研究工作的详细内容。 超 15000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你 ...