策略学习
搜索文档
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能领域,机器人操纵作为核心难题,随着视觉、语言及多模态学习的飞速发展迎来变革。大型基础模型的出现,大幅提升了机器人的感知与语义表征能 力,使其能在非结构化环境中基于自然语言指令完成任务。由西安交通大学、香港科技大学(广州)等多所高校联合撰写的综述,以 "高层规划 + 低层控制" 的统一 框架,系统梳理了基于学习的机器人操纵方法,明确了当前技术瓶颈与未来方向,为该领域的研究提供了全面且结构化的参考。 论文名称:Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives 论文链接:https://arxiv.org/pdf/2512.22983 项目链接:https://github.com/BaiShuangha ...
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
机器之心· 2025-05-21 12:00
核心观点 - 大语言模型(LLM)的生成范式正从传统的顺序生成转向异步并行生成,通过识别语义独立的内容块实现提速 [2][4] - MIT与谷歌团队提出PASTA框架,首次从策略学习角度探索异步生成,通过标记语言和双阶段训练实现质量与速度的Pareto优化 [5][6][14][20] - PASTA在AlpacaEval基准测试中实现1.21-1.93倍几何平均提速,质量变化范围为+2.2%至-7.1% [4][21] 异步生成技术 - 传统自回归解码按顺序生成内容,而异步生成通过并行处理独立内容块提升效率 [2][4] - PASTA-LANG标记语言包含三种核心标记:`<promise/>`声明异步任务、`<async>`包裹异步内容、`<sync/>`同步线程 [7][8][10] - 案例显示异步生成可将坐标提取与长度公式计算并行处理,最终组合结果 [12] 训练方法 - 双阶段训练流程:监督微调阶段用Gemini 1.5 Flash标注100K条SlimOrca数据,对Gemma 7B微调 [16] - 偏好优化阶段采样多种标注方案,基于理论加速比和Gemini 1.5 Pro评估质量构建拒绝采样数据集,采用BoNBoN算法优化 [16] 推理系统设计 - 采用交错式KV缓存布局,所有线程共享连续内存池,动态交错存储不同线程的token [18] - 通过注意力掩码控制确保子线程仅访问相关内容,位置编码调整使线程将交错内容视为逻辑连续序列 [19][25] 实验结果 - 在AlpacaEval 805项任务评估中,PASTA形成质量-速度Pareto前沿:最快模型接近2倍提速,最保守模型保持质量同时显著加速 [21][23] - 偏好优化过程显示性能持续提升,Pareto前沿向右上方推进,证明方法具备计算资源可扩展性 [23] 行业影响 - 突破自回归解码效率极限,为实时大模型应用提供加速方案 [25] - 标记语言设计简单且可扩展,开启学习驱动生成优化的新范式 [13][25]