自博弈技术
搜索文档
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
Founder Park· 2025-10-13 18:57
研究背景与核心问题 - 当前视觉语言模型训练过度依赖人工标注数据,导致数据稀缺和成本高昂,且模型能力受限于人类知识天花板 [7] - 受AlphaGo通过自博弈实现自我迭代、突破人类能力上限的启发,研究旨在探索VLM不依赖人类标注数据的自我进化路径 [2][7] Vision-Zero框架核心设计 - 框架核心是让AI通过自博弈游戏学习,类似“谁是卧底”游戏,通过制定规则和交替训练策略实现自我进化 [3] - 框架特点一:策略自博弈框架,在社交推理类游戏环境中训练,自动生成高复杂度推理数据,无需人工标注 [9] - 框架特点二:支持任意形式图片作为输入,无限制条件,使模型能在多领域获得能力提升并具备良好泛化性能 [9] - 框架特点三:提出自博弈与可验证奖励的强化学习交替优化的算法,解决传统自博弈的性能瓶颈问题,实现持续性能提升 [9] 自博弈游戏规则与机制 - 游戏规则受“谁是卧底”启发,包含n名平民和1名卧底,玩家获知角色后观察略有差异的图片 [13][14] - 游戏分线索阶段和决策阶段,玩家需提供或分析线索并投票找出卧底,过程生成复杂推理链条 [14][15] - 该游戏具有高度策略性,能激发并持续提升Agent的视觉理解与推理能力 [16] 训练数据构建与领域无关性 - 游戏仅需两张有细微差异的图片对即可启动,数据构建简单且成本低廉,应用场景广泛 [17] - 研究使用了三种不同场景的图片输入进行训练:CLEVR合成场景2000对图像、图表数据1000对图像、真实世界图片1000对图像 [17] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization算法,采用双阶段交替训练,缓解纯自博弈的局部均衡和强化学习的知识饱和问题 [18] - 实验表明,两阶段交替训练性能明显优于单阶段训练 [18] 实验结果与性能表现 - 在六个基准数据集测试表明,未使用任何标注数据训练的Vision-Zero一致性地优于其他需要标注的SOTA方法 [19] - 具体提升:VisionZero-Qwen-7B在CLEVR和Real-World数据上较基线提升约3%,在Chart数据上提升约2.8%,而最优基线方法提升仅约1.9% [19] - 模型展现出强任务泛化能力,其环境未显式包含数学任务,但通过自然语言策略博弈提升的逻辑推理能力能有效迁移至数学与推理任务,甚至超过专门在大规模任务数据上训练的模型 [19] 缓解跨能力负迁移 - Vision-Zero训练能有效缓解VLM后训练中常见的跨能力负迁移问题 [22] - 例如,基线模型MM-Eureka-Qwen-7B在特定任务训练后,在ChartQA任务上性能下降约10%,而Vision-Zero训练的模型则能保持或提升其他任务性能 [22] - VisionZero-Qwen-7B在视觉任务上显著提升的同时,在图表/OCR任务上平均仅下降0.2%,甚至在某些配置下实现全面提升 [22] 研究意义与潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力 [24] - 通过构建开放、可扩展的博弈环境,摆脱了对人工标注的依赖,突破了数据和知识瓶颈,使模型能在无需特定任务训练下实现可持续能力进化与跨领域泛化 [24] - 双阶段交替优化有效避免了自博弈常见的局部均衡问题 [24]