Diffusion Large Language Model (DLLM)
搜索文档
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速
具身智能之心· 2025-11-07 08:05
核心观点 - 提出了一种名为UD-VLA的Diffusion Large Language Model (DLLM)模型 该模型是首个全面开源的Diffusion VLA模型 在性能上达到SOTA水平 同时相比自回归模型实现了四倍的加速 [3] - 模型的核心创新在于提出了联合离散去噪过程 (Joint Discrete Denoising Diffusion Process, JD3P) 将未来帧生成和动作预测统一在一个框架内 实现了图像生成和动作预测的相互裨益 [3] - 在主流基准测试CALVIN LIBERO SIMPLER上进行了全面评测 结果显示UD-VLA在多项任务中表现优异 例如在CALVIN基准的连续任务完成指标上达到4.64 优于其他对比模型 [15] 模型架构与方法 - 采用统一标记化 (Unified Tokenization) 将文本、图像和动作使用不同的标记器离散化为标记 并拼接成单一多模态序列 序列结构为[文本标记 ; 当前图像标记 ; 未来图像标记 ; 动作标记] [7] - 设计了混合注意力机制 (Hybrid Attention Mechanism) 保持不同模态间和文本模态内的因果性 而视觉和动作模态内保持双向 使动作在去噪过程中持续受益于图像的去噪过程 [7] - 提出了联合离散去噪过程 (JD3P) 动作与图像在同一个去噪步骤中并行生成 采用单步掩码预测目标 仅对被掩码位置计算交叉熵损失 [9] 训练与推理 - 训练分为两个阶段 第一阶段在大规模视频数据集上进行后训练以注入未来图像生成能力 第二阶段共同优化图像和动作生成 并将自回归解码重构为扩散过程 [10] - 推理时采用并行解码与自适应掩码 初始化所有位置为掩码并进行少量迭代 同时使用前缀KV缓存与预填充机制 复用前缀标记的KV缓存以引导去噪 [11][12] - 引入了基于置信度的解码机制 通过置信度对掩码位置进行排序 并使用温度化的Gumbel采样进行更新 以提升推理速度并保证动作质量 [13] 性能评测 - 在CALVIN基准的长周期机器人操作任务中 UD-VLA在连续完成5项任务的成功率上达到0.840 平均任务长度达到4.64 优于包括MODE MDT UP-VLA在内的多个先进模型 [15] - 在LIBERO基准测试中 UD-VLA在空间、物体、目标和长周期任务上的平均成功率为92.7% 与DreamVLA的92.6%相当 在长周期任务上达到89.6% [16] - 在具体任务如放置勺子、放置胡萝卜、堆叠积木和放置茄子中 UD-VLA的整体成功率为62.5% 高于F1模型的59.4%和To-FAST模型的48.3% [16]