Workflow
视觉语言导航自演进世界模型NavMorph
icon
搜索文档
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 20:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]