Workflow
IROS'25冠军方案:X-VLA重磅开源,全面刷新机器人SOTA!
自动驾驶之心·2025-10-30 08:04

模型核心亮点与性能 - 清华大学与上海人工智能实验室联合发布全新通用跨本体具身基座模型X-VLA,该模型是首个实现120分钟无辅助自主叠衣任务的全开源模型[2] - X-VLA以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,并在IROS-AGIBOT World Challenge上夺得冠军[2] - 模型具备四大核心亮点:率先实现超长时序灵巧操作任务的全流程开源、仅0.9B超轻量参数即实现SOTA性能、通过创新技术打破大规模异构数据训练难题、完整公开模型参数代码与训练数据[7] 技术突破与创新方法 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,对主视角和辅助视角图像进行分治编码,优化计算资源分配并提升信息处理通量[16] - 动作生成模块采用先进的flow-matching技术,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 仿真与实机测试表现 - 在五大权威仿真基准测试中,X-VLA以0.9B参数在多个关键指标上超越现有SOTA模型,如在Simpler基准上达到95.8分,在LIBERO基准上平均达到98.1分[25] - X-VLA的预训练缩放定律曲线呈现优异线性增长趋势,验证了其架构的强大可扩展性[22] - 在真实机器人平台上,X-VLA成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] 行业影响与竞争优势 - X-VLA为具身智能领域提供了性能强劲、完全开源的新基线与技术范式,有望推动行业技术发展[2] - 该模型在IROS-2025 AGIBOT World Challenge中从全球23个国家431支顶尖战队中脱颖而出,获得全球第一名[4][5] - 基于高质量预训练基座,X-VLA在后训练阶段展现出极高数据效率与稳定性,只需中小规模场景专属数据微调即可达到SOTA性能[23]