核心观点 - 上海人工智能实验室联合多家单位提出全新通用具身智能大脑框架VeBrain,集成视觉感知、空间推理和机器人控制能力,实现多模态大模型对物理实体的直接操控[1] - VeBrain在视觉感知、空间推理和机器人控制能力上同时取得最先进性能,相比现有框架平均提升31.5%[4][17] - 模型通过统一语言建模范式、机器人适配器模块和高质量数据集VeBrain-600k实现三大能力协同[2][9][10] 技术架构创新 - 将机器人控制重构为关键点检测和技能识别两个通用MLLM子任务,实现统一输入输出空间[5][6][7] - 机器人适配器模块由点追踪器、运动控制器、策略执行器和动态接管组成,实现文本到动作的闭环控制[9][13] - 提出多模态链式思维标注方法,提升模型组合推理能力[2][10] 数据集构建 - 构建VeBrain-600k数据集,包含60万条指令数据,覆盖多模态理解(20万条)、空间推理(31.2万条)和机器人控制(8.8万条)三类任务[10][14] - 数据采用GPT-4o与Gemini自动生成推理过程并经专家复核,提升任务复杂度[10] 性能表现 多模态能力 - 在13个多模态benchmark上平均得分77.1,超越GPT-4o(76.5)和Qwen2.5-VL(76.9)[19] - 在MMVet(+5.6%)、DocVQA(94.4分)等任务表现突出[19] 空间推理能力 - 在ScanQA(CIDEr 101.5)和ScanRefer(Acc@0.25 66.4%)刷新纪录,超越专业模型GPT4Scene-HDM[20][21] - VSI基准测试平均得分86.4,比Qwen2.5-VL高出44.3%[22] 机器人控制 - 在复杂寻找任务成功率80%,相比现有MLLM提升70%[16] - 四足机器人长程任务成功率提升50%,机械臂任务表现显著优于π0模型[24]
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位·2025-06-05 13:00