四维认知叙事

搜索文档
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体~
自动驾驶之心· 2025-07-17 10:19
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事增强和三阶段课程学习,显著提升了视觉-语言大模型在具身规划领域的性能,使开源模型Qwen2.5-VL在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等闭源模型 [3][4][14][16] - WAP框架的核心创新在于数据层显式绑定指令-环境上下文,并仅依赖视觉闭环(RGB+指令),无需特权信息(如动作成功信号),更贴近真实机器人应用场景 [6][12][16] - 该方法通过视觉、空间、功能、句法四维叙事增强和step-wise推理标注,解决了现有方法在陌生场景、多步目标和含糊措辞下的规划瓶颈 [8][9][16] 技术方法 四维认知叙事增强 - 视觉维度:增强物体外观描述(如"20 cm银色厨刀"),提升模型对物体属性的感知能力 [8] - 空间维度:精确定位物体位置(如"水池右侧贴墙的白柜"),强化空间关系理解 [8] - 功能维度:抽象工具-对象关系(如"用于喷洒的容器"),增强语义推理 [8] - 句法维度:解析复杂指代(如"那颗洗净的生菜"),解决语言歧义 [8] 三阶段课程学习 - Base阶段:学习原始指令-轨迹对的基础感知-动作映射 [13] - Env-Aware阶段:加入视觉+空间增强,提升场景理解能力 [13] - Concept-Aware阶段:整合功能+句法+全链推理,攻克高阶语义与长程规划 [13] 实验结果 主结果 - Qwen2.5-VL模型平均成功率提升60.7pp(2→62.7),长程任务成功率从0跃升至70,标准差STD更低(6.3),显示能力更平衡 [14] - InternVL3-8B模型同样实现显著提升(6→61.0),长程任务成功率增长17.5倍 [14] 消融实验 - 仅视觉/空间增强:平均成功率46.7,标准差17.1,显示过拟合感知但语义薄弱 [14] - 加入部分推理:平均成功率54.0,标准差9.3,能力趋稳但仍缺长程一致性 [14] - 完整四维+课程:成功率62.7,标准差6.3,实现性能与稳健性兼顾 [14] 案例分析 - 复杂指令"把冰镇的苹果切块后扔进垃圾桶":WAP-Qwen拆解出18步动作(取刀-切-冷藏-丢弃),正确处理隐式条件和因果顺序,而基线模型直接丢弃整苹果导致失败 [15] 未来方向 - 下沉至连续控制领域,连接低层执行模块 [17] - 拓展工业/户外等动态场景应用 [17] - 探索自监督叙事自进化,实现数据-模型闭环迭代 [17]