Workflow
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位·2025-07-25 13:38

技术突破 - 清华大学与生数科技联合研发的Vidar模型首次实现通用视频大模型与物理执行的结合,通过少样本泛化能力完成从虚拟到真实世界的跨越 [3] - 模型仅需20分钟真机数据即可泛化到新机器人本体,数据需求仅为行业领先RDT的1/80、π0.5的1/1200 [4] - 采用"预训练+微调"架构:基于Vidu2.0基座模型,通过75万条双臂机器人数据预训练+20分钟目标机器人微调实现精准控制 [10] 技术架构 - 上游视频预测:通过统一观测空间实现多视角融合,将本体信息/摄像头数据/任务标注打包整合 [10] - 下游动作执行:逆动力学模型(IDM)将视频翻译为机械臂动作,实现视觉-语言与动作模态解耦 [6] - 测试时扩展(Test-Time Scaling)技术提升视频预测可靠性,VBench测试显示主体一致性从0.565提升至0.855 [11][12] 数据创新 - 提出任务无关动作(Task-Agnostic Action)概念,解决传统VLA模型数据过度捆绑问题 [13] - 开发ATARA自动化数据采集系统:10小时无干预采集即可实现全动作空间泛化,准确率超基线51% [15][18] - 掩码逆动力学模型架构可自动捕捉机械臂相关像素,实现跨背景泛化 [22] 性能表现 - 真实世界任务轨迹重放成功率接近100%,较基线提升33-44% [18] - 在16种常见操作任务中展现卓越泛化能力,尤其擅长未见过的任务/背景场景 [25] - 实现双臂协作抓取等复杂操作,预测视频与实际执行高度吻合 [25] 战略意义 - 突破多任务操作与环境适应性瓶颈,为服务机器人落地居家/医院/工厂场景奠定基础 [27] - 全球首个多模态生成模型架构达到SOTA水平的机器人大模型,实现数字-物理世界双向反哺 [28][29] - 延续Vidu技术路线,通过统一基座架构强化时空信息理解与生成能力 [28] 团队背景 - 核心成员来自清华大学TSAIL实验室,含两位博士生冯耀(具身智能方向)和谭恒楷(具身大模型方向) [29][30] - 技术成果发表于ICML/OOPSLA/IJCAI等顶会,获国家奖学金/NOI银牌等荣誉 [29][30] - 指导老师朱军教授提出"通过多模态大模型推动数字与物理世界深度融合"的愿景 [29]