Workflow
强化学习
icon
搜索文档
聊AI,当然得来量子位MEET大会!
量子位· 2025-11-20 12:09
大会概况 - 大会以“共生无界,智启未来”为主题,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议前沿技术与产业落地进展 [4] - 大会将包含学术前沿与商业落地的碰撞,以及来自基础设施、模型、产品产业的领先技术成果 [5] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6] - 大会预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [64] 核心发布内容 - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项,结果在大会上正式发布 [60] - 年度AI趋势报告将提名正在释放巨大潜力的十大AI趋势,并进行深入分析,提名代表机构与最佳案例 [61] 参会嘉宾背景 - 嘉宾涵盖学术界与产业界领袖,包括来自清华大学、浙江大学、上海交通大学等顶尖高校的学者,以及来自百度、小米、蚂蚁集团、昆仑万维等企业的技术专家 [12][17][21][27][30][35][40][44][48][53][57] - 嘉宾研究领域覆盖大模型、多模态、世界模型、合成数据、语音识别、高性能计算、行为金融学、AI商业化等前沿方向 [13][23][27][40][45][49][54][58] - 多位嘉宾拥有在国际知名企业如微软、谷歌、英伟达、Meta、IBM等的任职经历,具备深厚的技术研发与产品化经验 [13][27][36][40][45]
从纯小白到具身算法工程师的打怪之路
具身智能之心· 2025-11-20 12:02
文章核心观点 - 文章系统性地介绍了具身智能领域的几个关键技术方向,包括VLA、VLN、强化学习与足式机器人、以及Diffusion Policy [1] - 这些技术方向代表了机器人领域当前主流且前沿的研究范式,旨在提升机器人的感知、决策和执行能力 [1][6][21] VLA(视觉语言动作)方向 - VLA机器人系统主要由视觉感知处理模块、语言指令理解模块和动作策略网络构成 [1] - 显示端到端VLA是最经典范式,将视觉语言信息压缩成联合表征后映射到动作空间,依赖不同架构、模型大小和应用场景取得不错性能 [1] - 隐式端到端VLA关注可解释性,利用video diffusion模型预测未来状态,再通过逆运动学生成动作,提高了可解释性和模型扩展潜能 [2] - 分层端到端VLA通过结合大小模型特点提升泛化性并保持执行效率,成为近期研究热点 [2] VLN(视觉语言导航)方向 - VLN机器人系统由视觉语言编码器、环境历史信息表征和动作策略三个模块构成 [5] - 采用大规模预训练视觉语言模型和利用LLM进行指令拆解是当前主流前沿范式 [6] - 环境历史信息处理分为隐式端到端和显示端到端两种方法,前者使用序列模型隐变量,后者使用拓扑图、BEV语义地图等模型进行环境建模 [6] - 策略网络学习从依赖数据增强转向从LLM蒸馏规划信息,物体导航任务要求机器人具备更强目标识别和未知环境探索能力 [6][7] 强化学习与足式机器人 - 强化学习是足式机器人的重要组成部分,涉及四足机器人基础包括运动学与动力学、多模态传感器融合 [9][10] - 双足机器人进阶重点在于平衡性与动态控制,以及PPO、SAC等强化学习算法与步态控制的结合 [10] - 高级算法包括深度强化学习与模仿学习,以及多任务训练与自适应实现行走、避障、攀爬等任务无缝切换 [10] - Sim2Real迁移与安全机制通过域随机化、RMA等策略降低仿真与现实差异,保证真实部署成功率 [10] Diffusion Policy(扩散策略) - Diffusion Policy通过直接对机器人动作建模,使动作更逼真灵活,在多个仿真环境和真机任务中相比最先进方法实现平均46.9%的性能提升,控制频率超过100Hz [21] - 扩散策略大模型RDT拥有12亿参数,提出物理可解释的统一动作空间,通过海量预训练展现强大零样本泛化能力,仅需1-5个示例即可学习新技能 [21][22] - 扩散策略应用范围正扩大至自主导航、灵巧手抓取等领域,能根据环境约束动态生成符合约束的动作轨迹 [22] - 技术体系从基础状态扩散策略不断发展,包括3D空间应用扩展、等变扩散策略、安全扩散策略等新研究方向 [23]
蚂蚁开源万亿参数强化学习高性能权重交换框架Awex
每日经济新闻· 2025-11-20 09:51
公司动态 - 蚂蚁集团于11月20日宣布开源其万亿参数强化学习高性能权重交换框架Awex [1] 技术进展 - 公司开源的技术框架Awex支持万亿参数级别的模型训练与权重交换 [1] - 该框架专注于强化学习领域,具备高性能特性 [1]
聊AI,当然得来量子位MEET大会!
量子位· 2025-11-19 14:20
大会概况 - 大会以“共生无界,智启未来”为主题,关注AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [4] - 内容涵盖学术前沿与商业落地碰撞,以及来自基础设施、模型、产品产业的领先技术成果 [5] 核心发布 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [60] - 大会将重磅发布年度AI趋势报告,提名并深入分析2025年度十大AI趋势 [61] 嘉宾阵容(首波) - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,研究兴趣包括大模型、多模态、搜索推荐等,发表论文100余篇 [21][22][23] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,聚焦大模型、世界模型和合成数据技术,首创数据库大模型TableGPT [27] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一 [30] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜等荣誉 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [40] - 朱宁:上海交通大学上海高级金融学院金融学教授,研究涵盖行为金融学、中国宏观经济等领域 [44][45] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,首倡“群体智能”理念 [48][49] - 喻友平:中关村科金总裁,提出“平台+应用+服务”大模型落地三级引擎战略,推动垂类大模型应用 [53][54] - 乔梁:太初元碁联合创始人兼首席运营官,深耕高性能计算领域,获评2024年度“算力中国·青年先锋人物” [57][58] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [64] - 已成为智能科技行业的年度风向标 [64]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练
具身智能之心· 2025-11-19 08:34
文章核心观点 - Physical Intelligence团队提出了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过在实际部署中收集的经验数据进行自我改进 [4] - RECAP方法通过整合演示数据、自主执行数据以及专家远程干预数据,采用优势条件机制对VLA模型进行训练,从而显著提升模型在复杂任务上的性能和鲁棒性 [4][7] - 实验结果表明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务中,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的性能优化 [4][7] - 在部署阶段,机器人根据任务执行结果获得稀疏奖励反馈,并可接受专家干预以修正错误,所有这些数据都被整合到后续的训练迭代中 [7][12][22] 模型架构与技术细节 - RECAP基于VLA模型进行实例化,该模型源自模型,并增加了基于二值化优势值的条件调控能力,使其适用于强化学习训练 [14][16] - 模型采用知识隔离训练流程,能够通过流匹配灵活表示分块动作分布,并生成用于高级策略推理的中间文本 [15] - 价值函数采用670M参数的视觉语言模型作为骨干网络,其训练目标是根据片段级成功标签预测成功完成所需的步数,奖励函数设计确保失败片段具有低价值 [17][19] 实验任务与性能评估 - 评估任务涵盖三大类:衣物折叠、咖啡制作和纸箱组装,每项任务均涉及复杂的多步骤操作,持续时间在5到15分钟之间 [23][24][25] - 在衣物折叠任务中,模型需要处理多种物品,评估最具挑战性的纽扣衬衫折叠,成功标准为500秒内正确折叠并堆叠 [24] - 咖啡制作任务要求使用商用意式咖啡机完成双份浓缩咖啡的全套流程,成功标准为200秒内完成且无严重错误 [25] - 定量结果显示,RECAP方法在所有任务上均实现吞吐量和成功率的大幅提升,其中多样化衣物整理和咖啡制作任务的吞吐量增加超过两倍 [28][30] 迭代优化与对比分析 - 通过多轮RECAP迭代,模型性能持续改善,衣物整理任务迅速达到高成功率,而纸箱组装任务的成功率则保持稳定增长 [32] - 与AWR和PPO等其他策略提取方法相比,采用RECAP的模型在衣物整理任务上展现出显著的吞吐量优势 [35] - 在针对特定故障模式消除的实验中,RECAP方法仅需相对较少数据即可有效调整策略行为,消除在严格标准下的失败模式 [35] 应用部署与未来方向 - 经过RECAP训练的模型已实现实际部署,包括连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时,以及在工厂场景中组装实际包装纸箱 [10] - 未来改进方向包括实现奖励反馈和任务重置的自动化、开发更复杂的探索机制,以及将当前的迭代式离线更新模式扩展为完全并行的在线强化学习框架 [36]
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 08:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
Physical Intelligence团队正式发布π*0.6
自动驾驶之心· 2025-11-19 08:03
文章核心观点 - Physical Intelligence团队发布了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过从部署经验中学习来实现自我改进 [2][4] - RECAP方法通过整合演示数据、自主收集数据及专家干预数据,采用优势条件机制进行训练,显著提升了VLA模型在复杂现实任务中的性能和鲁棒性 [4][7] - 实验证明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务上,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [7][11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的持续优化 [4][7][13] - 方法通过价值函数估算动作的优势值,并让策略基于此优势值进行条件化训练,从而能从次优数据中提取更优策略 [7][13][16] 模型架构与技术细节 - 研究基于VLA模型PiStar 实例化RECAP,该模型是在Star 基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制 [8][14] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略,模型架构包含860M参数的动作专家 [8][14][18] - 价值函数采用670M参数的视觉-语言模型作为骨干网络,从Gemma 3 4B模型初始化,用于预测任务成功的剩余步数 [14][19] 实验任务与性能评估 - 评估任务包括三大类:衣物折叠(简单T恤/短裤、多样化11种物品)、使用商用意式咖啡机制作饮品、以及真实工厂场景的纸箱组装 [23][24][25] - 在最具挑战性的多样化衣物整理和咖啡制作任务中,RECAP使任务吞吐量提升超过两倍,故障率降低两倍或更多 [28][30] - 经过RECAP训练的策略展示了卓越的鲁棒性,例如连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断 [10] 训练流程与数据整合 - 训练流程包含预训练、基于演示数据的监督微调、以及多轮自主数据收集与强化学习优化的迭代循环 [21][22] - 数据整合策略独特,既包含完全自主收集的片段,也包含由专家遥操作员监控并可进行修正干预的片段,用于克服探索挑战和修正重大错误 [22] - 价值函数和策略在每轮迭代中均从预训练检查点进行微调,而非持续微调上一轮模型,这有助于避免多轮迭代中的性能漂移 [22] 方法比较与优势 - 在衣物整理任务中,采用RECAP方法的模型实现的吞吐量远超AWR和PPO等传统策略提取方法,展现出显著优势 [35] - RECAP方法能有效消除在严格成功标准下被视为失败的特定故障模式,仅需相对较少数据即可有效调整策略行为 [35] - 尽管构建于已有研究中的独立算法模块之上,但RECAP独特的组合方式具有创新性,首次证明了通用强化学习方案能显著提升VLA模型的实战性能 [10]
Physical Intelligence最新发布的VLA模型,为什么是机器人通往规模化部署的拐点?|Jinqiu Select
锦秋集· 2025-11-18 19:13
核心技术框架:Recap - Physical Intelligence公司发布名为Recap的结构化强化学习框架,旨在解决机器人从“能做”到“能稳定做”的挑战 [2] - Recap框架构建一个前所未有的三段式训练管线:演示(demonstration)+ 纠正(correction)+ 机器人自主rollouts(RL on robot),三类数据在统一的强化学习体系中协同工作 [2] - 该框架首次展示如何利用纠正数据结合价值函数和优势来系统性地抵消机器人策略中最顽固的难题——误差累积 [3] 模型性能与突破 - 应用Recap训练出的π*0.6模型是一款拥有50亿参数的视觉语言动作模型,能够处理异构提示并吸收执行质量评价 [3] - 在最具挑战性的任务上,模型处理能力提升了一倍以上,失败率降低到二分之一甚至更低,达到可向商业部署过渡的性能门槛 [3][10] - 在真实场景中,π*0.6模型可实现连续一整天制作浓缩咖啡、数小时不间断折叠未见过的衣物、以及在工厂中稳定组装真实包装盒子的稳健水平 [10] - 在上述复杂任务上,π*0.6模型实现了超过90%的成功率 [25] 行业痛点与解决方案 - 当前机器人基础模型主要依赖人力收集的演示数据,存在人力成本高、策略水平限于人类、无法自我提升等局限性 [2][27] - 仅靠模仿学习的视觉语言动作模型在物理世界中会因细小失误累积形成复合错误,导致任务失败,这是实现高可靠性系统的关键障碍 [11] - Recap通过两种方式从不良经验数据中获取训练信号:一是由专家提供纠正指导,二是让机器人通过强化学习根据任务结果自行判断行为好坏 [13] - 强化学习中的核心挑战是信用分配问题,Recap通过引入价值函数作为“好坏评分器”,并利用优势来为动作打标签,从而解决此问题 [16] 训练方法与数据应用 - Recap的第一阶段是使用离线强化学习对模型进行预训练,不同于基础模型所采用的纯监督学习方案 [19] - 训练流程包括先通过任务相关示范对模型进行微调,再利用真实机器人上收集的额外数据继续做强化学习训练,结合修正指导和奖励反馈 [19] - 不同数据源服务于不同目的:专家演示用于定义新行为,辅导用于完善策略,自主经验则可能成为最大数据源用于完善行为直至超越人类表现 [27][28] 具体应用场景挑战 - 盒子组装任务的挑战在于完成复杂的物理操作流程并高频重复,同时需处理如纸箱黏连等边缘情况 [24] - 洗衣任务主要难在变化性和泛化能力,机器人需适应不同的初始状态和种类繁多的衣物,以及不同的折叠策略与材质特性 [24] - 制作浓缩咖啡饮品的难点在于长流程且环环相扣,要求模型具备高层语言策略以控制等待设备工作及后续清洁等时序性动作 [24]
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 18:00
研究领域与方向选择 - 具身智能研究活跃方向包括视觉语言导航、视觉语言行动、强化学习以及真实到仿真再到真实的循环方法 [1] - 人形机器人研究热点集中在强化学习与真实仿真循环方法 若实验室具备相关机器人本体可优先考虑这些方向 [1] - 机械臂本体适合开展视觉语言行动、视觉语言行动结合强化学习以及扩散策略的研究 其中视觉语言行动方向普遍对计算资源要求较高 [1] - 四足机器人平台非常适合强化学习研究 但该领域创新点已相对有限 因已有较多研究工作完成 [2] - 移动操作是结合视觉语言导航与视觉语言行动的潜在优秀研究方向 [3] 研究挑战与资源考量 - 新入行研究者面临方向选择困惑 例如在强化学习与视觉语言行动之间 或传统SLAM与视觉语言导航之间难以抉择 [1] - 研究方向选择需考虑计算资源需求差异 某些方向需要较大算力而有些则不需要 充足算力是快速产出实验结果的必备条件 [1] - 研究者需根据预算选择适合的机器人本体 预算不足时可考虑采用仿真方案替代 [1] - 优秀研究想法的产生对新研究者而言充满挑战 往往需要经历多次试错 [3] 专业服务与支持 - 提供从CCF-A到CCF-C级别会议 以及SCI一区到四区期刊的论文辅导服务 覆盖毕业论文和博士申请支持 [3] - 辅导团队由来自国内外名校博士及头部企业研究员组成 具备ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议投稿与审稿经验 [3] - 服务提供全流程闭环辅导 涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略 [4] - 辅导结合工业界与学术界双重视角 不仅关注论文发表 更注重研究成果的落地应用价值 [5]
刚刚,中美机器人爆发了一场论战
华尔街见闻· 2025-11-18 16:41
事件概述 - 一段展示中国初创公司灵启万物机器人自主完成浇花、扔垃圾、整理玩具、与孩子互动等复杂任务的视频在全球科技圈引发广泛关注[1][2] - 发布方灵启万物强调视频全程“无加速、无遥控”,完全由机器人自主完成[4] - 该视频意外引发了一场围绕其真实性的中美科技界跨国论战[1][10] 技术展示与真实性论战 - 视频中机器人动作流畅,展示了端水、爬上床、与孩子玩飞盘等行为[2][15] - 美国Figure公司CEO Brett Adcock公开质疑视频真实性,称其可能采用开环回放控制器并在关键环节进行人工遥控[5][7] - 美国科技博主Mike Kalil发表长文论证视频未造假,指出机器人行为基于学术界已有研究成果(如ResMimic、HDMI、OmniRetarget等论文),灵启万物成功实现了前沿研究的工程化整合[15] - 支持者提供了从不同角度拍摄的备份录像作为证据[11] - 灵启万物的技术可能整合了模仿学习和强化学习,通过在模拟环境中进行数百万次训练再将能力迁移至物理机器人[15] 公司背景与硬件基础 - 灵启万物是一家深圳初创公司,创始人来自腾讯[4] - 公司使用的硬件是宇树科技(Unitree)已实现规模化量产的G1人形机器人平台[4] - Figure公司CEO此前也曾公开质疑另一家中国机器人公司优必选(UBTECH)展示成果的真实性[8] 行业影响与商业模式路线之争 - 若灵启万物的软件系统能在经济实惠的量产硬件上实现通用功能,可能对Figure AI、1X Technologies和特斯拉等走“软硬一体”垂直整合路线的公司构成威胁[18] - 美国头部玩家采用类似苹果的封闭模式,自主研发AI软件和硬件本体,集成度高但研发成本和产品价格高昂[18] - 灵启万物视频展示了“安卓模式”的可能性,即AI软件与机器人硬件解耦,专注于开发“大脑”并利用第三方低成本量产硬件[19] - 该模式若成功,人形机器人产业竞争关键将从硬件制造转向软件智能,冲击现有硬件集成战略建立的壁垒[20] - 市场可能向开放、灵活的生态倾斜,软件可在任何硬件上运行,类似智能手机市场的安卓系统[20] - 此次论战本质是“软硬一体”垂直整合与“软硬解耦”开放生态两种技术路线和商业模式的提前碰撞[21]