连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈?
机器之心·2026-06-07 12:14

文章核心观点 - 邵林团队在机器人顶级会议ICRA 2025和2026上连续取得突破性成果,其研究聚焦于解决具身智能的泛化操作能力难题,并将这些前沿技术沉淀至其创新的VLOA大模型中,旨在推动机器人技术迈向广阔的现实应用 [1][5][6][30] 学术成就与技术突破 - 团队论文《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects via Semantic Correspondence》入围ICRA 2026机器人操作与运动方向最佳论文奖提名,是近五年来亚洲唯一连续两年获得该方向奖项认可的团队 [1][5] - 在ICRA 2025,团队凭借通用灵巧抓取框架D(R,O) Grasp斩获该方向最佳论文奖,从四千多篇投稿中脱颖而出,是近五年来首次以亚洲第一单位身份获此殊荣 [3] - ICRA 2026中,团队共有10篇研究成果入选,聚焦灵巧抓取、社交导航、力感知与任务规划等方向,系统性推进具身智能技术边界 [3] 关键技术:Bi-Adapt框架 - Bi-Adapt是一种用于高效学习通用双手操作的新型框架,其核心突破在于能将已学会的双臂操作经验迁移到未见过的物体类别上,且仅需少量试错 [7][8] - 该框架通过建立操作经验库、利用视觉基础模型进行跨类别语义对应、进行少样本交互适配,最终部署控制策略,解决了双臂操作的复杂协同与泛化问题 [16][17][19][21][22] - 仿真测试显示,Bi-Adapt在五类新类别双臂操作任务(展开、打开、取盖、关闭、盖盖)上的成功率达到59%至70%,显著超过多个基线方法 [9][10] - 真实机器人实验验证了其跨类别操作能力从仿真到真实环境的可迁移性,完成了展开、打开、取盖等任务 [11] 关键技术:D(R,O) Grasp框架 - D(R,O) Grasp框架解决了不同灵巧手之间复用同一套抓取能力的泛化挑战,通过统一表示,一个AI模型即可支持LeapHand、Shadow Lite、XHand、SoftHand等多种灵巧手,覆盖不同形态 [22] VLOA大模型与系统架构 - 公司提出VLOA路线,在视觉-语言-动作之间引入以物体为中心的状态变化表示,即Object Trajectory,以统一数据格式,解决任务、物体和机器人本体三重多样性带来的学习瓶颈 [24][25] - 基于此搭建了“具身世界模型+通用操作模型”的双引擎架构,旨在指导“任意机器人操作任意对象、完成任意任务” [26] - 上层具身世界模型负责理解任务语义并预演物体状态变化,下层通用操作模型负责将物体轨迹转化为具体机器人动作,两者通过Object Trajectory接口连接 [29] - 2025年5月,基于VLOA大模型完成了全球范围内复杂度、精度和步骤数都极高的具身操作任务——拼家具,验证了框架整合分散能力、在复杂物理环境中稳定执行任务的能力 [29][30] - Bi-Adapt和D(R,O) Grasp的研究成果为VLOA补齐了跨类别操作泛化和一个模型适配多种末端执行器的关键底层能力 [30] 公司背景与战略 - 公司由前苹果AI平台技术负责人田野与新加坡国立大学助理教授邵林联合创立,兼具斯坦福前沿学术积累与硅谷大规模AI工程落地经验 [32][33][36] - 公司已在机器人本体、末端执行器、多模态物理仿真等关键环节实现全栈布局,采取软硬一体路线加速技术规模化落地 [37] - 公司已获得京东集团、商汤科技、达晨财智、招商局创投等多家机构的投资及产业支持,并在北京、深圳、苏州、杭州设有研发和生产中心 [38] - 在产业化方面,已与零售、物流、康养服务及机器人本体公司开展试点合作,并计划于今年实现面向工业与商业场景的标准化机器人本体产品量产 [38]

连续入选ICRA最佳论文,RoboScience机器科学如何突破具身智能泛化瓶颈? - Reportify