Vision-Zero框架核心创新 - 提出专为视觉语言模型设计的自博弈框架Vision-Zero,通过模型与自身副本竞争自动生成高复杂度推理数据,无需人工标注[6] - 框架特点包括策略自博弈、支持任意形式图片输入、以及通过Iterative-SPO算法实现持续性能提升,解决了传统自博弈的性能瓶颈问题[6][7] - 该框架在多个领域如推理和图表问答任务上,即使未使用任何标注数据训练,也超越了其他需要标注的当前最优方法[7] 自博弈机制设计 - 受社交推理游戏“谁是卧底”启发设计自博弈规则,游戏包含n名平民和1名卧底,卧底图片与平民存在细微差异[12][13] - 游戏过程包括线索阶段和决策阶段,迫使智能体生成复杂推理链条,随着对手能力提升,其视觉理解与推理能力被激发增强[14][15] - 游戏仅需两张有细微差异的图片对即可启动,数据构建成本低廉,应用场景广泛,支持合成场景、图表数据和真实世界图片等多种输入[17][18] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization双阶段交替训练算法,通过自博弈和可验证奖励的强化学习交替优化,避免陷入局部平衡和知识饱和[20] - 实验表明交替训练性能明显优于单阶段训练,有效缓解了纯自博弈训练难以探索新推理路径的问题[20] 实验结果与性能表现 - 在六个基准数据集测试中,VisionZero-Qwen-7B模型较基线提升约3%,另一版本提升约2.8%,而最优基线方法仅提升约1.9%[22] - Vision-Zero框架训练的模型有效缓解了跨能力负迁移问题,例如在图表问答任务上,基线模型性能下降约10%,而Vision-Zero模型在视觉任务提升的同时,在图表任务上平均仅下降0.2%[24] - 具体数据显示,VisionZero-Qwen-7B在MathVista得分72.6,在MathVision得分28.1,在WeMath得分39.8,平均表现优于对比基线模型[24] 框架启示与应用潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力,通过构建开放、可扩展的博弈环境摆脱了对人工标注的依赖[26] - 该框架使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化,突破了数据和知识瓶颈[26]
Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练新范式
机器之心·2025-10-11 11:29