视觉-语言-大模型(LVLMs)

搜索文档
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体,代码数据完全开源!
具身智能之心· 2025-07-16 17:12
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事和三阶段课程学习,显著提升了视觉-语言大模型在具身规划任务中的表现 [2][5][6] - WAP框架使7B级开源Qwen2.5-VL模型在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等商业模型 [2][14] - 该方法仅依赖视觉闭环(RGB+指令),无需特权信息或外部模块,更贴近真实机器人应用场景 [4][6] 技术方法 - 四维认知叙事增强:在数据层注入视觉、空间、功能和句法四个维度的环境上下文信息 [9] - 三阶段课程学习:从基础感知到环境理解再到高阶语义的渐进式训练策略 [12] - 闭环观察机制:仅使用RGB观测和自然语言指令,不依赖动作成功信号等特权信息 [6] 性能表现 - Qwen2.5-VL-7B模型在完整WAP框架下达到62.7的平均成功率,长程任务成功率从0提升至70 [14][15] - InternVL3-8B模型同样实现显著提升,从6提升至61.0,长程任务成功率增长17.5倍 [14] - 消融实验显示完整框架(62.7)优于仅视觉/空间增强(46.7)或部分推理(54.0)的配置 [15][20] 应用案例 - 在"冰镇苹果切块后丢弃"任务中,WAP-Qwen成功拆解18个步骤并正确处理隐式条件,而基线模型直接失败 [16] - 模型展现出对复杂指令中隐式条件和因果顺序的准确理解能力 [16] 未来方向 - 计划拓展至连续控制和动态场景应用 [21] - 探索自监督叙事自进化机制,实现数据-模型闭环迭代 [21] - 框架已开源代码和数据集,促进社区发展 [19]