Workflow
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位·2025-07-25 13:38

△ Vidar真实场景演示视频 Vidar团队 投稿 量子位 | 公众号 QbitAI 机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有 没见过的物品 ,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。 这就是清华大学与生数科技最新联合研发的 Vidar模型 , 首次让通用视频大模型长出了"手脚" ,通过少样本泛化能力,实现从虚拟的 Dream World到真实世界Real World物理执行的关键跨越。 它在互联网级视频数据预训练的基座模型Vidu上,使用百万异质机器人视频数据进行再训练。 仅用20分钟机器人真机数据 ,即可快速泛化到新的机器人本体,所需数据量约为行业领先的 RDT的八十分之一 , π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。 △ 具身数据金字塔;不同方法所需的真机人类操作数据量 突破跨本体泛化困境 众所周知, 当前主流视觉-语言-动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,并且这些数据往往只 适配特定的机器人本体及其采集的特定任务集。此外,数据收集过程费时费力、成本高昂。这带 ...