Workflow
LVP (Large Video Planner)
icon
搜索文档
不用VLA!从视频生成模型到机器人控制
具身智能之心· 2026-01-11 11:02
文章核心观点 - 提出了一种名为LVP(Large Video Planner)的具身智能新范式,其核心思想是利用视频生成模型进行机器人控制,而非直接输出动作指令[12] - 该方法通过在大规模、多样化的视频数据集上预训练,使机器人模型获得了对物理世界运作规律的通用理解,从而在零样本情况下展现出对未见任务和场景的强大泛化能力[19][47] - 尽管在推理速度和实时控制方面存在局限,但该研究证明了视频生成模型作为通用机器人大脑的潜力,是迈向更智能、更通用机器人的重要一步[44][46] 技术方法与模型架构 - 核心模型LVP是一个拥有140亿参数(14B)的专用视频生成模型[18] - 模型采用“视频即规划”理念,利用视频包含的时空连续性信息,比离散的文本或动作指令蕴含更丰富的知识[19] - 引入了两项关键技术改进以确保生成视频的可执行性:1) **扩散强迫**:一种灵活的训练策略,使模型能根据清晰的第一帧或一段视频上下文稳定预测未来画面[24];2) **历史引导**:一种采样技巧,强制生成的视频严格遵循第一帧(机器人当前视角),保证物理连贯性[26] 训练数据集 - 为训练LVP模型,研究团队构建了名为LVP-1M的数据集,包含约140万个视频片段[29] - 数据来源高度多样化,融合了机器人数据、人类第一视角数据和互联网视频,以提供机器人形态先验、丰富的手物交互细节以及多样化的场景任务[30] - 关键数据清洗步骤包括:用大模型重新生成详细的动作描述、对齐机器人视频与人类视频的时间频率(统一为3秒完成动作)、剔除剧烈镜头晃动以专注于手物交互[34] 从视频到动作的执行流水线 - 设计了一套纯视觉的动作提取流水线,无需额外训练,将生成的视频转化为机器人可执行的动作[32] - 流程分为四步:1) LVP模型生成人类手部完成任务视频[35];2) 使用HaMeR模型对每帧进行3D手部重建[35];3) 使用MegaSAM模型进行4D时空对齐,平滑修正手部轨迹[35];4) 通过重定向算法将人手关节角度映射到机器人灵巧手或二指夹爪上[35] 性能评估与实验结果 - 在硬核的第三方“野外测试”中,LVP成功完成了包括撕胶带、舀咖啡豆等在内的从未见过的任务[38][39] - 与通用视频生成模型(如Wan 2.1, Cosmos)相比,LVP生成的视频在物理接触正确性和任务完成度上遥遥领先,通用模型常出现手穿物体等物理谬误[41] - 与当前最强的机器人视觉-语言-动作模型(如OpenVLA, π0)相比,LVP在零样本泛化能力上表现突出:在任务组A(平行夹爪)的“拾取物体”任务中,LVP成功率为5/10,优于π0的3/10和OpenVLA的0/10[8][43];在任务组C(分布外场景)的“拾取物体”任务中,面对新物体时成功率为4/10,而π0和OpenVLA均为0/10[8][43] 当前局限性与未来方向 - **推理速度慢**:在A100 GPU上生成一个视频计划需要几分钟,目前无法用于实时闭环控制,只能进行开环执行[48] - **依赖开源组件**:动作提取依赖HaMeR和MegaSAM等第三方模型,若组件识别错误会导致执行失败[48] - **开环执行风险**:一旦开始执行,若中途发生意外(如物体滑落),机器人无法像闭环策略那样实时调整[48]