Workflow
策略学习
icon
搜索文档
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
机器之心· 2025-05-21 12:00
核心观点 - 大语言模型(LLM)的生成范式正从传统的顺序生成转向异步并行生成,通过识别语义独立的内容块实现提速 [2][4] - MIT与谷歌团队提出PASTA框架,首次从策略学习角度探索异步生成,通过标记语言和双阶段训练实现质量与速度的Pareto优化 [5][6][14][20] - PASTA在AlpacaEval基准测试中实现1.21-1.93倍几何平均提速,质量变化范围为+2.2%至-7.1% [4][21] 异步生成技术 - 传统自回归解码按顺序生成内容,而异步生成通过并行处理独立内容块提升效率 [2][4] - PASTA-LANG标记语言包含三种核心标记:`<promise/>`声明异步任务、`<async>`包裹异步内容、`<sync/>`同步线程 [7][8][10] - 案例显示异步生成可将坐标提取与长度公式计算并行处理,最终组合结果 [12] 训练方法 - 双阶段训练流程:监督微调阶段用Gemini 1.5 Flash标注100K条SlimOrca数据,对Gemma 7B微调 [16] - 偏好优化阶段采样多种标注方案,基于理论加速比和Gemini 1.5 Pro评估质量构建拒绝采样数据集,采用BoNBoN算法优化 [16] 推理系统设计 - 采用交错式KV缓存布局,所有线程共享连续内存池,动态交错存储不同线程的token [18] - 通过注意力掩码控制确保子线程仅访问相关内容,位置编码调整使线程将交错内容视为逻辑连续序列 [19][25] 实验结果 - 在AlpacaEval 805项任务评估中,PASTA形成质量-速度Pareto前沿:最快模型接近2倍提速,最保守模型保持质量同时显著加速 [21][23] - 偏好优化过程显示性能持续提升,Pareto前沿向右上方推进,证明方法具备计算资源可扩展性 [23] 行业影响 - 突破自回归解码效率极限,为实时大模型应用提供加速方案 [25] - 标记语言设计简单且可扩展,开启学习驱动生成优化的新范式 [13][25]
智元灵犀机器人“会点拳脚功夫”了,近期将开启首轮预售
南方都市报· 2025-05-16 16:12
智元灵犀X2机器人最新进展 - 公司发布智元灵犀X2机器人最新研发进展,展示更强运控能力和主动交互能力,包括语音交互、拳脚动作、起身等技能 [1] - 机器人具备纯视觉自主感知规划能力,通过RGB和RGBD摄像头实现环境感知、决策与路径规划 [2] - 灵犀X2搭载灵巧手末端执行器,可灵活抓取物体,为泛化作业能力打下基础 [2] - 机器人双腿升级,支持任意姿态快速恢复站立,新增风格化步态学习能力,并优化噪音控制实现静音行走 [3] 产品商业化进展 - 灵犀X2将于近期开启首轮预售,多版本产品支持运动/交互/作业单一或组合能力的科研开发 [1] - 经二次开发后,机器人在商业活动、舞台表演、展厅导览、康养陪伴等场景具备突出优势 [1] 技术突破与行业动态 - 公司联合香港大学提出通用策略学习系统UniVLA,具备跨机器人本体、场景与任务泛化能力,成果被机器人顶会RSS 2025认可并开源 [5] - 行业呈现技术竞赛趋势:众擎机器人完成全球首例前空翻特技,智元机器人展示缝合葡萄皮技能,全球首个人形机器人半马吸引20支队伍参与 [4] 公司融资动态 - 智元机器人关联公司新增广西腾讯创业投资有限公司、卧龙电驱等股东,估值达150亿元 [4] - 广西腾讯创业投资有限公司持股比例从约2.06%增至约2.7% [4]