策略学习 - 财报，业绩电话会，研报，新闻

策略学习

搜索文档

一个近300篇工作的综述！从“高层规划和低层控制”来看Manipulation任务的发展

具身智能之心· 2026-01-06 08:32

文章核心观点 - 机器人操纵作为具身智能的核心难题，正因大型基础模型的出现而迎来变革，其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力，使其能基于自然语言指令在非结构化环境中工作，但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作，以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划：任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配，其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题，包含六大核心组件 [4] - **基于LLM的任务规划**：以大型语言模型为核心实现自然语言到任务步骤的映射，早期方法如SayCan选择可执行技能，进阶方案如Inner Monologue引入闭环反馈实现动态调整，LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**：联合视觉与语言进行推理，PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理，VILA直接复用GPT-4V能力无需微调，机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**：将规划转化为可执行程序以弥补语言计划的精度缺陷，Code as Policies通过暴露API让LLM生成控制代码，Demo2Code、SHOWTELL支持从演示中提炼程序，Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**：利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化，VoxPoser构建语言-视觉条件的3D价值图提供优化目标，CoPa、ManipLLM融入物理先验确保可行性，ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**：聚焦“物体能做什么”，从几何、视觉、语义及多模态四个维度学习物体的交互可能性，为操纵决策提供先验知识 [11] - **3D场景表征**：将环境感知转化为结构化动作提案，通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成，借助神经描述场等隐式表征编码几何与语义信息，实现少样本姿态迁移等任务 [12] 低层学习型控制：动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作，解决“怎么做”的问题，从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**：定义技能获取的核心范式，主要分为三类：强化学习（包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC）、模仿学习（包括基于动作的模仿如行为克隆和基于观察的模仿）以及辅助任务学习（如世界建模和目标提取） [16][18] - **输入建模**：定义多模态感知的融合方式，主要包括：视觉-动作模型（基于2D视觉如Diffusion Policy或3D视觉如RVT）、视觉-语言-动作模型（整合语义时空信息，如RT-2、OpenVLA、SpatialVLA）以及触觉/力/音频等额外模态（如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性） [19][20] - **潜态学习**：负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码，包括在通用数据上预训练视觉编码器，以及将动作抽象为离散token（如VQVLA）或连续向量（如MimicPlay、LAD）以平衡泛化性与执行精度 [21][24] - **策略学习**：定义将表征解码为可执行动作的模型架构，主流范式包括：结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略（如ACT）、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**：现有方法多针对特定任务或机器人形态，缺乏能适配多样模态、载体及任务的通用基础模型，且长时程执行中易出现误差累积，难以维持稳定表现 [26] - **数据与仿真瓶颈**：真实世界机器人数据采集成本高、规模有限，而仿真环境与真实场景存在差异，导致模型迁移性能不佳，缺乏高效的数据循环机制 [27] - **多模态物理交互不足**：当前方法以视觉为中心，对触觉、力等物理交互信号的融合不够充分，难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**：在人机共存环境中，现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**：针对挑战明确了四大重点：构建支持灵活模态接口与载体适配的通用“机器人真脑”架构；建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度；融合触觉、听觉等多模态信号以强化物理交互；设计内在安全的控制策略并建立故障恢复机制，采用“学习+经典控制”的混合范式保障可靠性 [30]

策略学习助力LLM推理效率：MIT与谷歌团队提出异步并行生成新范式

机器之心· 2025-05-21 12:00

核心观点 - 大语言模型（LLM）的生成范式正从传统的顺序生成转向异步并行生成，通过识别语义独立的内容块实现提速 [2][4] - MIT与谷歌团队提出PASTA框架，首次从策略学习角度探索异步生成，通过标记语言和双阶段训练实现质量与速度的Pareto优化 [5][6][14][20] - PASTA在AlpacaEval基准测试中实现1.21-1.93倍几何平均提速，质量变化范围为+2.2%至-7.1% [4][21] 异步生成技术 - 传统自回归解码按顺序生成内容，而异步生成通过并行处理独立内容块提升效率 [2][4] - PASTA-LANG标记语言包含三种核心标记：`<promise/>`声明异步任务、`<async>`包裹异步内容、`<sync/>`同步线程 [7][8][10] - 案例显示异步生成可将坐标提取与长度公式计算并行处理，最终组合结果 [12] 训练方法 - 双阶段训练流程：监督微调阶段用Gemini 1.5 Flash标注100K条SlimOrca数据，对Gemma 7B微调 [16] - 偏好优化阶段采样多种标注方案，基于理论加速比和Gemini 1.5 Pro评估质量构建拒绝采样数据集，采用BoNBoN算法优化 [16] 推理系统设计 - 采用交错式KV缓存布局，所有线程共享连续内存池，动态交错存储不同线程的token [18] - 通过注意力掩码控制确保子线程仅访问相关内容，位置编码调整使线程将交错内容视为逻辑连续序列 [19][25] 实验结果 - 在AlpacaEval 805项任务评估中，PASTA形成质量-速度Pareto前沿：最快模型接近2倍提速，最保守模型保持质量同时显著加速 [21][23] - 偏好优化过程显示性能持续提升，Pareto前沿向右上方推进，证明方法具备计算资源可扩展性 [23] 行业影响 - 突破自回归解码效率极限，为实时大模型应用提供加速方案 [25] - 标记语言设计简单且可扩展，开启学习驱动生成优化的新范式 [13][25]

策略学习

异步并行生成

Artificial Intelligence

Artificial Intelligence

PASTA

PASTA - LANG