扩散策略 - 财报，业绩电话会，研报，新闻

扩散策略

搜索文档

具身智能之心· 2026-01-21 08:33

文章核心观点 - 一篇韩国团队的综述论文首次系统梳理了在线扩散策略强化学习的研究现状，构建了统一的算法分类与基准测试体系，为规模化机器人控制提供了新的理论框架与实践指南 [1] - 该综述通过“算法分类 - 实证分析 - 应用指导”的逻辑，揭示了不同算法的核心权衡，并提出了清晰的技术路线图，旨在推动扩散策略从实验室走向真实世界的规模化应用 [1][30] 问题根源与核心挑战 - **训练目标冲突**：扩散模型的去噪训练目标与在线强化学习的策略优化机制存在本质不兼容，难以直接复用传统强化学习的梯度更新逻辑 [4][5] - **计算与梯度难题**：扩散模型的多步反向去噪过程需通过长链反向传播计算梯度，计算成本极高，且易引发梯度消失或爆炸问题 [5] - **泛化与鲁棒性不足**：离线扩散策略受限于固定数据集，无法自主探索新动作；而在线学习需兼顾环境适应性与跨机器人形态迁移能力，现有方法难以平衡 [5] 四大家族算法体系 - **动作梯度类方法**：通过动作梯度直接优化策略，规避扩散链反向传播的复杂度，代表算法包括DIPO、DDiffPG、QSM，其关键优势为计算效率高，适合资源受限场景 [7][9] - **Q加权类方法**：通过Q值加权调制扩散损失，引导策略向高回报区域收敛，代表算法包括QVPO、DPMD、SDAC，其关键优势是保留扩散模型的多模态表达能力 [7][10] - **近邻类方法**：借鉴PPO等近邻策略优化思路，解决扩散策略对数似然难以计算的问题，代表算法包括GenPO、FPO，其关键优势是在大规模并行环境中性能突出，收敛稳定性强 [7][11] - **时序反向传播类方法**：通过端到端反向传播遍历完整扩散过程，代表算法包括DACER、DACERv2、DIME、CPQL，理论上能充分利用扩散过程的时序信息，但扩展性差，计算成本随扩散步骤增加呈指数增长 [7][12] 五大维度实证分析 - **任务多样性**：在涵盖12个机器人任务的统一基准测试中，GenPO在6/12任务中排名第一，峰值性能突出；DIPO在离线策略中表现最优，平均排名为3.58 [13][15][16] - **并行化能力**：GenPO、PPO等在线策略在1024个并行环境下性能显著提升，但在8个环境的受限场景中性能暴跌95%以上；DIPO等离线策略对并行化规模不敏感，鲁棒性更强 [18][19] - **扩散步骤扩展性**：动作梯度类、Q加权类方法随扩散步数K值增加性能提升；BPTT类方法在K>20后性能急剧下降，梯度不稳定问题凸显 [21] - **跨机器人形态泛化**：测试从源机器人到目标机器人的零样本迁移能力，发现离线策略迁移鲁棒性更强，在线策略在机器人硬件差异较大时易出现稳定性崩溃 [23][25] - **分布外环境鲁棒性**：评估在未见过的地形中的适应能力，发现GenPO在部分场景中表现优异，但存在过度拟合源环境的风险，易出现冒险行为 [27][25] 核心结论与应用指南 - **算法选择原则**：大规模并行仿真场景优先选择GenPO等近邻类方法；真实机器人、资源受限场景优先选择DIPO等动作梯度类方法；高精度长时程任务选择动作梯度类或Q加权类方法 [31] - **未来研究方向**：包括动作块与轨迹规划、安全强化学习融合、多智能体在线扩散策略强化学习、逆强化学习整合以及分层强化学习架构等 [31]

Online Diffusion Policy RL Algorithms (Online DPRL)

Online Diffusion Policy RL Algorithms (Online DPRL)

从纯小白到具身算法工程师的打怪之路

具身智能之心· 2025-11-20 12:02

文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向，包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式，旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA（视觉语言动作）方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式，将视觉语言信息压缩成联合表征后映射到动作空间，依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性，利用video diffusion模型预测未来状态，再通过逆运动学生成动作，提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率，成为近期研究热点 [2] VLN（视觉语言导航）方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法，前者使用序列模型隐变量，后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息，物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分，涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制，以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习，以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异，保证真实部署成功率 [10] Diffusion Policy（扩散策略） - Diffusion Policy通过直接对机器人动作建模，使动作更逼真灵活，在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升，控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数，提出物理可解释的统一动作空间，通过海量预训练展现强大零样本泛化能力，仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域，能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展，包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]

Cocos系统：让你的VLA模型实现了更快的收敛速度和更高的成功率

具身智能之心· 2025-08-22 08:04

核心观点 - 扩散策略训练中存在损失崩塌问题，导致训练效率低下和策略性能下降 [3] - 提出Cocos方法，通过将源分布修改为依赖于生成条件的分布来解决损失崩塌问题 [3] - Cocos方法显著提高训练收敛速度和任务成功率，且与现有扩散策略架构兼容 [3] 技术原理 - 流匹配方法通过求解常微分方程将简单源分布转化为复杂目标分布 [5] - 条件分布流匹配的优化目标为$$\mathcal{L}_{\text{CPMc}}(\theta):=\mathbb{E}_{t,q(x_{0}),q(x_{1},c),p_{t}(x|x_{1},x_{0})}\left\|v_{\theta}(t,x,c)-u_{t}(x|x_{1},x_{0})\right\|^{2}$$ [5] - 损失崩塌发生时神经网络难以区分生成条件，优化目标退化为对边际动作分布的建模 [6] - 梯度差异上界为$$\left\|\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{1})-\nabla_{\theta}{\mathcal{L}}_{\mathrm{CFMc}}(\theta,c_{2})\right\|\;\leq\;2\left(M+K D\right)\epsilon$$ [6] 方法实现 - Cocos的优化目标定义为$$\mathcal{L}_{\mathrm{Cocos}}(\theta):=\mathbb{E}_{t_{\tau/(x_{0}|c)},q(x_{1},c),p_{t}}\left\|v_{\theta}-u_{t}\right\|^{2}$$ [9] - 源分布采用$$q(x_{0}|c)=\mathcal{N}(x_{0};\alpha F_{\phi}(\mathcal{E}(c)),\beta^{2}I)$$形式 [9] - 实验使用DiT架构插入交叉注意力层融入视觉和语言信息 [9] - 视觉编码使用Dinov2，语言编码使用T5 [9] 实验结果 - LIBERO基准测试中Cocos达到94.8平均成功率，对比基线86.5提升8.3个百分点 [23] - MetaWorld任务中Cocos在faucet-open任务取得100%成功率，较基线84.0提升16个百分点 [16] - 现实世界xArm机械臂任务Cocos获得93.3%成功率，较基线67.3%提升26个百分点 [16] - SO100机械臂任务Cocos达到74.8%成功率，较基线59.5%提升15.3个百分点 [16] 案例研究 - LIBERO任务中Cocos策略成功区分多视角相机，非Cocos策略出现相机注意力崩塌 [18] - 腕部相机意外脱手时，Cocos策略仍能通过外部相机定位目标 [18] - 余弦相似度显示Cocos对所有视角相机的区分能力均高于非Cocos策略 [18] 源分布设计 - 标准差0.2时LIBERO平均成功率94.8%，0.1时降至77.5% [23] - VAE训练源分布效果与手动设计0.2标准差相当，达到93.8%成功率 [23] - 同时训练源分布和扩散策略需配合EMA更新机制以保持稳定性 [24]

扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力

具身智能之心· 2025-08-18 08:07

核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM（Latent Diffusion-based World Models），一种基于隐空间扩散的世界模型，用于预测隐空间的未来状态，提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示，包含几何特征和语义特征，具有广泛通用性，有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略，通过整合世界模型生成的预测状态迭代优化输出动作，在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色，在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段：通过预训练的视觉基础模型提取几何表征（DINOv2）和语义表征（Siglip），并在扩散过程中让二者交互，学习依赖关系 [10] - 策略模型训练与迭代优化：将世界模型的未来预测作为额外输入引导策略学习，基于扩散策略模型架构，迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段，通过任务无关的片段学习隐扩散世界模型，再利用未来状态预测优化策略模型 [9] 实验结果虚拟实验 - 在LIBERO-LONG数据集上，仅用10条轨迹训练，达到68.7%的成功率，显著优于其他方法（DreamerV3 33.5%，ATM 44.0%，Seer 53.6%） [15][16] - 在CALVIN D-D数据集上，平均完成任务数量为3.63，优于Seer（3.60）和ATM（2.98） [17] - 跨场景实验中，在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习，性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务（叠碗、开抽屉、关抽屉、抓取物体放入篮子等）中，将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型：使用视觉基础模型构建隐空间的通用表示，学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略：利用未来预测状态反馈给策略模型，迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系，促进准确动态预测 [10]

具身人工智能

世界模型

扩散策略

Artificial Intelligence

LaDi-WM（Latent Diffusion- based World Models）

具身人工智能

世界模型

扩散策略

Artificial Intelligence

LaDi-WM（Latent Diffusion- based World Models）

VLA之外，具身+VA工作汇总

自动驾驶之心· 2025-07-14 18:36

具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果，涵盖机器人操作、全身控制、sim2real迁移等方向，其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线，涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破，包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统，学习效率达到人类水平，支持不同手型适配[3] - 触觉融合技术发展显著，包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展，DyWA动力学自适应模型实现通用化非抓取操作，SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案，可在杂乱货架实现物体抓取[3] - 世界模型应用广泛，LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破，DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化，出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势，3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新，包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升，Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展，SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破，HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]