Vidar模型

搜索文档
重磅!清华×生数发布机器人通用大模型Vidar,高效泛化复杂物理操作达SOTA水平
具身智能之心· 2025-07-27 17:37
核心观点 - Vidar模型是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型,通过少样本泛化能力实现从虚拟到真实世界的关键跨越[2][4] - 该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据需求仅为行业领先方法的1/80至1/1200[4] - Vidar通过解构具身任务执行范式,利用"海量通用视频-中等规模具身视频-少量机器人特定数据"的三级数据金字塔,实现了视觉-语言模态和动作模态的完全解耦[8] 技术突破 跨本体泛化 - 突破传统VLA模型需要海量多模态数据的限制,解决动作数据稀缺和机器人本体不统一两大难题[7] - 通过统一观测空间、75万条双臂机器人数据预训练和20分钟目标机器人微调的三阶段方法,实现少样本泛化[14] - 具身预训练使Vidu2.0在主体一致性(0.565→0.855)、背景一致性(0.800→0.909)和图像质量(0.345→0.667)三个维度显著提升[13] 逆动力学模型 - 提出任务无关动作(Task-Agnostic Action)概念,实现三大优势:数据易采集、跨任务泛化、无需人类监督[15] - 开发ATARA方法实现10小时自动化采集即可解决跨本体问题,AnyPos模型使动作预测准确率提升51%,任务重放成功率接近100%[16][18] - 掩码逆动力学模型架构能自动捕捉机械臂相关像素,实现跨背景高效泛化[24] 性能表现 - 在16种常见机器人操作任务上成功率远超基线方法,尤其在未见任务和背景上展现突出泛化能力[27] - 视频预测与真机执行结果高度一致,能准确完成语义理解、双臂协作等复杂任务[29] - 测试时扩展(Test-Time Scaling)技术提升模型在实际应用中的视频预测表现和可靠性[13] 技术背景 - 基于生数科技视频大模型Vidu的技术同源创新,延续雷达感知隐喻突出虚实结合能力[31] - 采用多模态生成模型架构达到SOTA水平,强化对物理世界认知反哺数字内容创作[31] - 团队核心来自清华大学TSAIL实验室,在ICML、IJCAI等顶会发表多篇论文,获多项国家级荣誉[33][36] 应用前景 - 突破多任务操作和环境变化应对能力瓶颈,为服务机器人在居家、医院、工厂等复杂环境应用奠定基础[29] - 架起虚拟算法演练到真实自主行动的关键桥梁,推动AI在物理世界的实际服务能力[29] - 通过具身视频基座模型实现虚拟与现实的深度交互,提升人类与机器人的协同生产力[31]
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位· 2025-07-25 13:38
△ Vidar真实场景演示视频 Vidar团队 投稿 量子位 | 公众号 QbitAI 机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有 没见过的物品 ,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。 这就是清华大学与生数科技最新联合研发的 Vidar模型 , 首次让通用视频大模型长出了"手脚" ,通过少样本泛化能力,实现从虚拟的 Dream World到真实世界Real World物理执行的关键跨越。 它在互联网级视频数据预训练的基座模型Vidu上,使用百万异质机器人视频数据进行再训练。 仅用20分钟机器人真机数据 ,即可快速泛化到新的机器人本体,所需数据量约为行业领先的 RDT的八十分之一 , π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。 △ 具身数据金字塔;不同方法所需的真机人类操作数据量 突破跨本体泛化困境 众所周知, 当前主流视觉-语言-动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,并且这些数据往往只 适配特定的机器人本体及其采集的特定任务集。此外,数据收集过程费时费力、成本高昂。这带 ...