扩散策略

搜索文档
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 18:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]