行业背景与问题 - 当前主流的视觉-语言-动作模型在静态任务中表现良好,但在真实动态世界中存在反应迟缓、动作失配甚至失败的问题[2] - 问题的核心在于模型架构的时间结构不适用于动态世界,具体表现为感知与执行时间错位以及动作分块等待[6][12] - 真实世界几乎从来不是静态的,当物体移动、加速、碰撞或改变轨迹时,现有模型难以应对[2] 解决方案:DynamicVLA核心思路 - 核心思路是让机器人“边想边做”,而非通过增大模型来预测更远的未来[7][9] - 从推理机制、执行策略和模型结构三个层面进行系统性重新设计,以解决动态物体操控问题[3][9] - 目标是保证在推理延迟无法消除的情况下,机器人执行的动作仍能与当前世界状态时间对齐[9] 技术机制创新 - 采用连续推理机制,允许模型在上一段动作尚未执行完时就启动下一轮推理,解决动作分块等待导致的反应迟滞[10] - 引入潜在感知动作流机制,显式丢弃因推理延迟而“过时”的动作,只执行在时间上与当前环境状态对齐的预测,以修复感知与执行的时间错位[13][17] - 设计轻量化VLA架构,整体模型规模控制在0.4B参数量级,采用卷积式视觉编码器和截断语言模型层数,以在推理速度与理解能力间取得平衡[13][17] 数据体系构建 - 当前主流VLA数据集几乎都聚焦于静态操作,缺乏对动态物体交互的系统性覆盖,限制了模型在动态环境中的泛化能力[16] - 在仿真侧,基于Isaac Sim构建了大规模动态操控数据,覆盖2800多个场景和206种物体,提供了系统性的动态训练基础[16] - 对于真实世界,采用“真实世界仿真接口”的方法,通过多视角RGB感知在线估计物体6D位姿和速度,将真实环境抽象为与仿真一致的状态输入,从而复用同一套控制逻辑[17][18] 评测基准与实验结果 - 构建了首个专为动态物体操控设计的系统性评测基准——动态物体操控基准,该基准从交互能力、感知与理解、泛化与鲁棒性3个核心维度及9个子维度进行评估[21][22] - 实验结果显示,DynamicVLA在仿真与真实机器人实验的多个维度上显著领先现有方法[24] - 在动态交互相关能力上表现领先,但在感知理解与扰动鲁棒性上因小模型架构的选择仍存在不足[22] 行业意义与方向 - 该研究标志着下一代机器人智能的核心不仅是“看懂世界”,更是在世界变化过程中持续做出正确反应[25] - 为动态操控提供了一套可复现、可扩展、可落地的系统范式[25] - 未来重要方向是在保证实时响应速度的同时,寻求与推理能力之间更优的平衡[22]
破解机器人「慢半拍」难题:南洋理工解决VLA致命短板,动态世界断层领先
机器之心·2026-02-10 11:46