Workflow
VAGEN
icon
搜索文档
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
机器之心· 2025-10-25 11:20
VAGEN框架核心创新 - 针对VLM智能体在复杂视觉任务中表现鲁莽的问题,提出通过强化学习显式构建内部世界模型[2][3] - 核心思想是奖励结构化思考过程,强制智能体遵循"状态估计(观现状)+转移建模(预后路)"的思考模板[6][7] - 框架将智能体内部信念分为观测、推理、预测三个部分,形成完整思考循环[9][11] 技术实现方案 - 引入世界模型奖励机制,使用LLM-as-a-Judge在每一步思考后即时评估状态描述和预测的准确性[18][24] - 提出双层优势估计方法,先评估整个回合的总体价值,再精细分配至每个词元,解决传统Token-Level GAE的混乱问题[20][22][29] - 针对不同任务性质优化思考表示方法:通用任务适合自然语言,高精度操控任务需要结构化坐标格式[14][23] 性能表现结果 - 使用Qwen2 5-VL-3B基础模型训练的VAGEN-Full在5个多样化任务上综合得分达0 82,显著超越未经训练的同一模型(0 21)[26][27][30] - 在多项任务中超越闭源大型模型,包括GPT-5(0 75)、Gemini 2 5 Pro(0 67)和Claude 4 5(0 62)[28][30] - 训练成功率曲线显示VAGEN-Full在Sokoban、PrimitiveSkill等任务中学习速度更快、稳定性更强[33] 应用场景与意义 - 实验环境涵盖2D网格、3D导航、机械臂操控和SVG重建等多种视觉任务,展示广泛适用性[15] - 该框架证明通过强化世界模型推理可以构建更强大、鲁棒且具泛化能力的VLM智能体[32] - 为解决部分可观测环境下的智能体决策问题提供了新范式,使智能体从被动执行器转变为主动思考者[2][32]