宇树科技宣布开源UnifoLM-VLA-0 具备单模型处理多任务的通用能力

公司技术发布 - 宇树科技于1月29日开源了面向通用人形机器人操作的视觉-语言-动作大模型“UnifoLM-VLA-0” [1] - 该模型旨在突破传统视觉-语言大模型在物理交互中的局限，通过在机器人操作数据上的继续预训练，实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化 [1] - 模型通过集成动作预测头构建而成，在仿真与真机实验中展现出单模型处理多任务的通用能力 [2] 模型技术特点 - 模型深度融合文本指令与2D/3D空间细节，显著增强了空间感知与理解能力 [1] - 模型构建了全链路动力学预测数据，具备更好的任务泛化性 [1] - 在三个空间理解基准上评估显示，其空间感知与理解能力较Qwen2.5-VL-7B有显著提升，在“no thinking”模式下可比肩Gemini-Robotics-ER 1.5 [1] 性能验证与成果 - 在LIBERO仿真基准测试中，公司的多任务模型取得了接近最优的性能 [2] - 基于覆盖12类复杂操作任务的高质量真机数据集进行统一端到端训练 [2] - 真机验证表明，仅需单一策略即可高质量完成12类复杂的操作任务，在同一策略下能稳定完成全部12项任务，并在外部扰动下保持良好的执行鲁棒性与抗干扰能力 [1][2]