视觉-语言-动作(VLA)大模型
搜索文档
宇树宣布开源VLA大模型UnifoLM-VLA-0
环球网资讯· 2026-01-30 11:29
公司动态 - 宇树科技官方宣布开源其视觉-语言-动作大模型UnifoLM-VLA-0 [1] - 该模型是UnifoLM系列下面向通用人形机器人操作的VLA大模型 [3] - 模型旨在突破传统视觉语言模型在物理交互中的局限 [3] - 模型通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化 [3] 技术能力与特点 - 模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能 [3] - 针对操作类任务中对指令理解与空间感知的高要求,模型深度融合了文本指令与2D/3D空间细节,增强了空间感知能力 [3] - 公司构建了全链路动力学预测数据,使模型具备更好的任务泛化性 [3] 应用验证 - 在真机验证中,仅需单一策略即可高质量完成12类复杂的操作任务 [3]