Workflow
AnyPos
icon
搜索文档
如何做到的?20分钟机器人真机数据,即可跨本体泛化双臂任务
具身智能之心· 2025-08-11 08:14
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模 型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。仅用 20分钟 机器人真机数据,即可 快速泛化到新的机器人本体, 所需数据量约为行业领先的RDT的八十分之一,π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。微调后的模 型可完成多视角双臂任务,做到"说什么指令,做什么事情"。 论文链接: https://arxiv.org/abs/2507.12898、https://arxiv.org/abs/2507.12768 直播简介 清华朱军团队提出新范式应对具身智能挑战。针对VLA模型面临 的动作数据稀缺与本体不统一难题,该团队将任务解构为"预测 +执行":利用视觉生成模型(如Vidar)从海量互联网视频中学 习目标预测,再通过任务无关的逆动力学模型(如Any ...