Diffusion Policy - 财报，业绩电话会，研报，新闻

Diffusion Policy

搜索文档

自动驾驶之心· 2025-11-18 08:05

创业团队核心成员 - Tony Z Zhao担任公司CEO 为斯坦福大学计算机科学专业三年级博士生（已辍学）在校期间主导提出ALOHA ALOHA2 Mobile ALOHA等一系列具身智能领域有影响力的工作方案 [2][4][5] - Cheng Chi担任公司CTO 为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者师从Shuran Song教授提出通用操作接口UMI（获RSS 2024最佳系统论文决赛奖）及Diffusion Policy方案 [2][4][10] 行业背景与影响力 - 创业团队两位成员被描述为具身界影响力最大的博士其技术背景与研究成果在行业内具有显著知名度 [2][4] - 公司技术基础建立在ALOHA系列方案 UMI通用操作接口及Diffusion Policy等前沿研究之上这些工作对机器人操作与具身智能发展有重要贡献 [4][5][10]

具身智能之心· 2025-11-17 12:00

创业团队核心成员 - 公司CEO为Tony Z Zhao，其为斯坦福大学计算机科学专业三年级博士生（已辍学）[2][5] - 公司CTO为Cheng Chi，其为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者[2][10] - 两位创始人在具身智能界具有重要影响力[2] 创始人的技术背景与成就 - Tony Z Zhao在斯坦福期间主导参与了ALOHA、ALOHA2、Mobile ALOHA等具有行业影响力的机器人项目[4][5] - Cheng Chi是通用操作接口UMI的主要提出者，该成果获RSS 2024最佳系统论文决赛奖，同时是Diffusion Policy方案的作者[4][10] - 这些技术成果为公司在机器人操作与策略学习领域奠定了坚实基础[4][5][10]

如果Policy模型也能动态思考推理，是否能让机器人在真实世界中表现得更好？

具身智能之心· 2025-11-13 10:05

文章核心观点 - 提出一种名为EBT-Policy的新型机器人策略架构，该架构基于能量模型，能够动态思考与推理并理解不确定性[2] - EBT-Policy在模拟与真实机器人任务中均表现出色，显著提升了训练和推理效率，并展现出独特的零样本重试能力[4] - 该方法通过能量最小化进行推理，不依赖去噪生成过程，使模型更稳定且更具推理能力[9] 技术原理与架构 - EBT模型通过学习能量值来衡量输入变量间的匹配程度，能量高代表不确定，能量低代表更有信心[5] - 核心思想是学习关于观测数据、机器人动作和上下文的能量地形，在推理阶段通过能量最小化搜索低能量的未来动作轨迹[8] - 模型通过多次前向传播最小化能量直至收敛，能根据问题难度自动调整计算资源[8] 性能优势 - 训练阶段收敛速度提升约66%，推理阶段仅需2次迭代即可完成动作生成，计算量减少约50倍[18] - 具备训练与推理一致性、不确定性建模和失败恢复能力，而Diffusion Policy在这些方面存在不足[13] - 展现出更少灾难性失败、更少训练过拟合、更平滑推理过程、更强可解释性以及更优分布外泛化能力[24] 实际应用表现 - 在真实世界任务中表现优异，Fold Towel任务成功率从10%提升至86%，Collect Pan从65%提升至75%[17] - 在Benchmark任务中如Lift和Can达到100%成功率，Square任务达到98%成功率[17] - 可直接利用行为克隆数据进行部署，几乎无需额外微调即可稳定执行任务[16] 技术对比 - 与Diffusion Policy相比，推理方式从去噪生成变为能量最小化，推理步数从约100步减少到仅需2步[11] - 性能提升源于统一的训练与推理机制以及平衡动力学，使模型能自我纠正并重新稳定[23]

具身智能

Energy-Based Transformer (EBT)

EBT-Policy

Diffusion Policy

具身智能

Energy-Based Transformer (EBT)

EBT-Policy

Diffusion Policy

NIPS 2025 MARS 多智能体具身智能挑战赛正式启动！

具身智能之心· 2025-08-18 08:07

具身智能新挑战 - 单一智能体难以胜任复杂多变的任务场景，多具身智能体系统（如人形机器人、四足机器人、机械臂）成为实现通用自主的关键力量[3] - 多具身智能体需要在复杂环境中制定高层任务计划并稳健执行精细操作，但面临异构机器人、不同感知能力与部分可观测性等难题[3] - MARS Challenge通过两条互补赛道推动具身智能研究向真实世界落地，鼓励探索高层规划与低层控制能力[3][4] 赛道1：多智能体具身规划 - 面向异构机器人协同配合环境下的高层任务规划与角色分配，基于ManiSkill平台与RoboCasa数据集[5] - 通过视觉大语言模型完成智能体选择和动作分配，根据自然语言指令挑选最优机器人组合并制定高层动作序列[5][6] - 评估视觉大语言模型在多智能体分配、角色指派与符号规划等方面的推理能力，模拟现实环境中的协作[7][8] 赛道2：多智能体协同控制 - 致力于推动多智能体系统在复杂任务中的协作能力，如机械臂紧密配合堆叠方块等[12] - 基于RoboFactory仿真环境，要求智能体在动态、部分可观测条件下实时交互，设计端到端可部署控制模型[12][13] - 参赛者需通过仿真平台收集数据训练模型，最终提交部署后的模型供测试[12] 比赛安排与参与方式 - 时间安排：热身赛2025年8月18日开启，正式赛9月1日开启，10月31日结束，12月公布结果[25] - 参赛方式：通过比赛主页、微信交流群或Discord群参与，联系邮箱为marschallenge2025@gmail.com[25] - 比赛结果将在NeurIPS 2025的SpaVLE Workshop上公布，参赛者有机会赢得奖金并共同撰写报告[4][25] 行业展望 - 未来不同形态的智能体将协作完成超越单一能力边界的任务，MARS Challenge是推动多具身智能体走向通用自主的重要一步[26] - 该挑战为机器人、计算机视觉、自然语言处理及多模态AI领域的研究者提供了展示创意与技术的全球舞台[26][27]

具身智能之心· 2025-07-14 10:21

具身智能领域研究进展 2025年核心研究方向 - 扩散策略优化：多篇研究聚焦扩散策略在机器人操作中的应用，包括Latent Space强化学习[2]、流轨迹简化处理[2]、推理时模态组合[2]以及接触式操作的慢快策略学习[2] - 多模态融合：涉及视觉-触觉策略[3][5]、雷达-相机融合抓取[3]、跨模态表示学习[7][9]以及视觉-语言模型课程设计[3] - 通用化策略开发：包括跨机械臂适配的抓取策略[3]、零样本仿真到现实迁移[3][6]、物体中心表示法[7]以及大规模仿真训练[3][6] 技术方法创新 - 模仿学习革新：提出无机器人的人类视频训练[4]、单次演示学习[2][5]、演示数据生成[3]以及去噪加速策略[5][8] - 世界模型构建：Robotic World Model强调神经模拟器优化[2]，LaDi-WM利用潜在扩散进行预测操作[7]，Unified World Models耦合视频与动作扩散[6] - 高效策略架构：包括混合专家去噪器[6]、一致性蒸馏[8][9]、稀疏可重用策略[8]以及十亿参数级Transformer扩展[11] 应用场景突破 - 灵巧操作：涵盖双手协调策略[2][5]、非抓取式操作[5]、透明物体抓取[3]以及不规则物体追踪[4] - 跨领域迁移：研究分割掩码跨载体迁移[4]、人类视频到机器人动作转换[3][5]以及跨形态技能表示[6] - 实时控制优化：开发高频重规划策略[3]、事件相机驱动跑酷[5]以及流匹配快速策略[6][7] 数据集与训练范式 - 超大规模训练：Dex1B项目使用10亿演示数据训练灵巧操作[9]，DataMIL研究数据选择对模仿学习影响[6] - 仿真-现实协同：Sim-and-Real联合训练方法在平面推动[5]和操作策略[5][6]中验证有效性 - 新兴训练技术：包括无数据模仿学习[5]、强化与模仿学习交错[5]以及人类视频预训练[7][11]