Workflow
强化学习
icon
搜索文档
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点Auto· 2025-10-09 20:17
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,实现高级别自动驾驶和通用人工智能(AGI)的正确路径是构建以视频为核心的“世界模型”,并结合强化学习,而非当前行业主流的以语言模型为基础的端到端或VLA方案 [6][7][9][10] - 公司选择了一条技术更复杂、投入更高的路线,包括高算力平台(如4颗Orin芯片)、多传感器配置以及全新架构,旨在建立对物理世界时空认知的底层能力,短期内可能显得进展较慢,但长期看上限更高 [7][23][25][57] - 蔚来已建立起包括三层数据系统、三代首发平台和“4×100米接力”研发体系在内的核心能力,其工程能力和数据体系被认为是行业领先的,并已通过端到端AEB等技术验证了实际效果,如事故损失下降25% [34][36][42][44][45][54][63] 技术路径:世界模型与强化学习 - **对主流方案的批判**:端到端是智能驾驶发展阶段的产物,本质是“填坑”,将过去拆分的模块重新拼接;VLA本质是语言模型的模态扩展,根在语言上,但语言带宽低,无法承载现实世界的连续复杂性 [9][13][14][16] - **世界模型的定义与优势**:以视频为核心,直接学习时空和物理规律,建立高带宽的时空认知能力;与语言模型并行,前者解决“概念认知”,后者解决“时空认知”,两者融合才能实现AGI [10][11][13][27] - **强化学习的关键作用**:模仿学习只能解决短时序问题,强化学习能将系统从“5秒记忆的金鱼”进化为能处理长时序(30秒、60秒)规划的智能体,并能“清洗”海量但嘈杂的真实驾驶数据,提升模型能力 [7][28][29][31][32] - **与友商技术对比**:理想和小鹏的基座模型以语言模型为训练底座;华为的WA模型本质也是世界模型,只是表述不同;特斯拉是否构建世界模型尚不确定 [17] 研发与工程体系 - **数据系统**:建立三层数据系统——数据闭环系统(DLB)用于自动筛选数据;伴生系统用于大规模AB测试,每周测试里程达几千万公里;风险评估控制系统用于自动化分析每日数百万次接管数据 [36][42] - **工程能力**:三代智驾平台均实现全球首个芯片量产(Mobileye EyeQ4、英伟达Orin、自研神玑),团队仅大几十人,通过统一软件栈(仅保留CUDA底层,上层自研)支撑多平台,工程能力被锻炼得特别强 [54][55][56] - **研发组织“4×100米接力”**:第一棒预研团队专注将不确定性转化为确定性方案;第二棒量产团队负责将预研成果高质量交付;第三棒平台复制团队将功能适配到不同芯片平台;第四棒车型复制团队将方案快速部署到不同车型 [47][48][51][52][53] 产品化进展与目标 - **已实现成果**:2024年5月推送世界模型架构OTA更新;2023年底推出端到端AEB,经保险公司数据验证,事故损失下降25%;2025年5月在地库实现语言指令找出口功能,为国内首发 [22][40][44][45][63] - **近期规划**:计划在2024年底至2025年Q1推出Open-set开放集指令交互功能,使用户能通过自然语言与车辆自由交互,而非仅限于有限指令集,此举被认为将领先行业 [18][19][22] - **安全目标**:将主动安全置于最高优先级,下一个版本的目标是将事故损失降低50% [40][64][65] 战略选择与行业定位 - **硬件策略**:高算力平台(如4颗Orin)提供安全冗余、承载更多新功能且迭代更早;低算力平台(如乐道用1颗Orin)通过功能蒸馏和压缩实现主流体验,但最新功能会滞后 [45][46][50] - **发展节奏**:选择统一高速与城区方案的架构,虽初期开发量大、显得慢,但长期架构更干净、扩展性更好;跨大洲(中国和欧洲)同步量产也对研发和供应链构成极限压力 [25][39][43] - **核心优势**:底层平台、数据和工程能力经过三代架构锤炼;当前处于新架构(世界模型)初期,重点是将新架构潜力释放60%-80%;方向明确指向AGI,在更大技术语境下没有争议 [25][56][57][72]
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题
机器之心· 2025-10-08 12:13
文章核心观点 - 提出名为Verlog的多轮强化学习框架,旨在解决AI智能体在长时程任务中面临的挑战,如奖励稀疏和历史冗长[2][3] - Verlog框架可将任务处理能力从传统方法的约10回合显著扩展至超过400回合,在复杂长期决策任务中具备独特优势[3] - 该框架在BabyAI、BabaIsAI和Crafter等高难度基准环境中得到验证,展现出稳定而高效的训练性能[3][16][19] 方法介绍 - 基础模型基于Qwen-2.5的Instruct变体构建,包括Qwen-2.5-3B/7B-Instruct型号[6] - 选择该模型的主要原因包括可与BALROG评估框架无缝集成,并允许研究者直接使用基准测试提示而无需大量修改[7] - 记忆机制采用仅保留最新n+1个回合的策略,而非将整个轨迹放入上下文窗口,对于3B模型在n=1或2时性能达到峰值[9] - 引入Dual Discounting GAE算法,将token与step解耦以鼓励智能体用更少的环境步数完成任务[11][12][14] 实验结果 - 在Crafter环境中使用8张H100 GPU对Qwen2.5-7B-Instruct模型训练约36小时[19] - 在BabyAI与BabaIsAI环境中使用4张A40 GPU对Qwen2.5-3B-Instruct模型训练约24小时[19] - 三个实验环境证明Verlog在长周期、稀疏奖励和可变episode长度条件下均展现稳定训练能力[19] - Crafter环境的回合长度范围在70到400步之间,平均约为190步,Verlog在此类挑战性环境中开箱即用[3] 框架优势总结 - 通过记忆机制和回合级抽象有效管理长交互历史信息[20] - 结合dual-discounting GAE和价值函数预训练增强稀疏奖励下的训练稳定性[20] - 利用固定回合批处理和自举式价值估计管理可变长度轨迹[23] - 通过针对性提示工程和默认动作替换使训练过程中超过95%的动作均为有效动作[23]
我们正在找具身领域的合伙人......
具身智能之心· 2025-10-08 10:49
最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升级、 企业培训等多个方向上赋能。 岗位说明 主要面向具身课程开发、方案研发、硬件研发、培训合作(B端主要面向企业和高校、研究院所培训,C 端面向较多学生、求职类人群)。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,要推动大的行业进步,需要更多优 秀的伙伴加入我们。 现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课程开发与 科研辅导等多个领域展开合作。 我们将提供高额的酬金与丰富的行业资源。 主要方向 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多模态 大模型、仿真、运动控制、端到端、3D感知等多个方向。 ...
“盲眼”机器人在完全看不见的情况下30秒跑酷首秀惊艳!
具身智能之心· 2025-10-07 11:03
文章核心观点 - 亚马逊机器人团队FAR发布首个名为OmniRetarget的人形机器人研究成果,该技术能在完全无视觉感知的情况下完成复杂任务[2][9] - OmniRetarget是一个开源数据生成引擎,通过交互网格方法将人类演示转化为高质量机器人运动参考,实现从仿真到硬件的零样本迁移[12][13] - 该技术在运动学质量和下游策略性能上全面领先现有基线方法,成功率领先10%以上[16][42] 技术原理与方法 - 核心技术是基于交互网格的动作重定向方法,通过建模机器人、物体和地形之间的空间和接触关系来保留必要交互[15] - 交互网格被定义为一个体积结构,通过德劳内四面体化构建,并最小化拉普拉斯形变能量来保持空间关系[19][21][22] - 采用顺序二次规划风格的迭代方法求解约束非凸优化问题,保证时间连续性和平滑性[23][24] - 通过参数化改变物体配置、形状或地形特征,将单个人类演示转化为丰富多样的数据集[28][32] 性能表现与实验结果 - 在机器人-物体交互任务中,OmniRetarget的下游强化学习策略成功率达到82.20% ± 9.74%,显著高于基线方法[41] - 在机器人-地形交互任务中,成功率进一步提升至94.73% ± 22.33%[41] - 在完整增强数据集上训练的成功率为79.1%,与仅使用标称动作的82.2%相近,表明增强方法能扩大动作覆盖范围而不显著降低性能[39] - 在运动学质量指标上,OmniRetarget在穿透、脚部打滑和接触保留方面整体优于所有基线方法[41] 团队背景与发展前景 - 研发团队Amazon FAR成立仅七个多月,由华人学者领衔,负责人Rocky Duan来自著名机器人技术公司Covariant[43][48] - 团队核心成员包括UC Berkeley的Pieter Abbeel等机器人领域知名学者[44][45] - 这是亚马逊在人形机器人(足式)领域的首次尝试,展示了公司在机器人技术方面的强大研发能力[49][50]
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
量子位· 2025-10-06 13:42
henry 发自 凹非寺 量子位 | 公众号 QbitAI 你见过这样的"盲眼"机器人demo吗? 它在完全看不见的情况下——没有摄像头、雷达或任何感知单元——主动搬起9斤重的椅子,爬上1米高的桌子,然后翻跟头跳下。 不光耍酷,干起活来,搬箱子也不在话下。 还能一个猛子跳上桌子。 手脚并用爬坡也照样OK。 这些丝滑小连招来自 亚马逊机器人团队FAR (Frontier AI for Robotics)发布的 首个 人形机器人(足式)研究成果—— OmniRetarget ! OmniRetarget使强化学习策略能够在复杂环境中学习长时程的"移-操一体"(loco-manipulation)技能,并实现从仿真到人形机器人的零样本 迁移。 网友表示:又能跑酷、还能干活,这不比特斯拉的擎天柱强10倍? 此外,保留任务相关的交互使得数据能够进行高效的数据增强,进而从单个演示推广到不同的机器人本体、地形和物体配置,以减少不同变体 的数据收集成本。 在与其他动作重定向方法的对比中,OmniRetarget在所有关键方面:硬约束、物体交互、地形交互、数据增强表现出了全面的方法优势。 | Methods | Hard Ki ...
强化学习在机械臂、四足、人形的应用有哪些?
具身智能之心· 2025-10-06 00:03
强化学习在具身智能机器人领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,宇树、智元等公司的人形机器人通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作[3] - 强化学习方案使机器人产品能够适应救援、测量、危险环境等场景[3] - 机械臂的视觉语言动作模型结合强化学习方案在学术领域越来越受欢迎,该方案使机器人执行任务更高效、丝滑与顺畅[4][9] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周维护答疑,目标帮助学员产出可向RAL、ICRA、IROS、CoRL等顶级会议或期刊投稿的论文初稿[10][18] - 课程采用6人小班制,每周1次直播授课并配有视频录播和专属助教答疑[8][18] - 课程提供四足、人形、机械臂、VLA+RL四个大方向的研究主题,学员可三选一主线,并根据各自方向确定研究主题[18][19] 课程技术框架与产出 - 课程基于最新的Isaac Lab仿真环境,提供可复现的基线代码和真机部署参考代码,涵盖Sim2Real和Real2Sim2Real完整流程[18][19][23] - 学员将学习SAC、PPO、BC、Diffusion Policy等强化学习算法,并在复杂地形鲁棒行走、外推冲击恢复、速度曲线跟踪等任务上进行实战[19][23] - 课程产出包括论文IDEA确认、项目实现、实验指导、写作润色和初稿形成,结营后8周内提供论文维护支持(补实验、改图、润色与回复)[8][18][25] 研究课题示例与师资力量 - 研究课题示例包括基于终身学习的四足机器人跨任务运动技能迁移、神经科学启发下的人形机器人全身运动控制等前沿方向[30] - 授课导师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,曾在RSS、ICRA、IROS、RAL等顶级会议期刊发表论文并担任审稿人[27] - 课程强调科研闭环,提供从方法、工程、评测到写作、投稿、维护的全流程陪跑,每周设定明确的任务指标和里程碑[18][36]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 14:42
"知人者智,自知者明。"——《道德经》 古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上 出色 地完 成 任务 ,然而距离成为真正的 用户伙伴 ,它们依旧缺少那份 "知人" 的能力。这主要源于现实交互远比解题更加复杂: 这正是智能体面临的下一个时代课题: 从 "会解题" 迈向 "懂用户" 。而要真正回答这一课题,我们需要全新的动态评测框架与训练机制:不仅能测量模型在交互 中的表现,还能驱动其学会在用户不确定与多目标的世界里,问之有道,断之有衡,答之有据。为此,来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方 案: 二者相辅相成,把 "以用户为中心" 从理念落地为 可复现的流程、接口与评测指标 。 UserBench 论文链接:https://arxiv.org/pdf/2507.22034 UserBench 代码仓库:https://github.com/SalesforceAIResearch/UserBench 现实交互中, 用户目标常常未在最初完全成形 (underspecification)、而是 ...
仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板
具身智能之心· 2025-10-04 21:35
核心技术框架 - 采用“单条成功演示轨迹”替代传统从零开始的探索,将高维抓取任务转化为演示编辑任务 [4] - 通过单步强化学习优化编辑参数,极大简化了训练流程 [4][8] - 结合视觉模仿学习实现从仿真环境到真实场景的迁移 [4][8] 技术实现细节 - 演示轨迹编辑通过调整末端执行器变换和手部关节增量来适配不同物体,其中末端执行器变换用于调整手腕的6D位姿,手部关节增量用于调整手指关节角度 [9] - 单步马尔可夫决策过程将任务重构,观测仅包含初始手腕位姿、初始物体位姿和物体点云,动作仅为编辑参数 [9] - 奖励设计极为简化,仅使用抓取成功和碰撞惩罚的组合,无碰撞且抓取成功时奖励为1,有轻微桌面接触且成功时奖励为0.5,失败或严重碰撞时奖励为0 [9] - 训练效率高,通过IsaacGym的并行仿真,在单张RTX 4090 GPU上训练24小时即可收敛 [9] 仿真环境性能 - 在权威数据集DexGraspNet上刷新性能记录,在基于状态的设置下,训练集成功率达95.2%,测试集已见类别和未见类别成功率分别为95.5%和94.4% [10] - 在基于视觉的设置下,训练集成功率达92.2%,测试集已见类别和未见类别成功率分别为92.3%和90.1% [10] - 展现出极强的泛化能力,训练与测试的泛化差距仅1%,且在物体初始位置随机的情况下仍保持高成功率 [10] 跨平台与跨数据集泛化 - 无需调整超参数即可适配6种不同形态的机器人抓取设备,在未见数据集上平均成功率达84.6% [11] - 多手指手表现最优,例如FR3+Inspire Hand在VisualDexterity数据集上成功率高达99.1% [11] - 仅使用175个物体进行训练,即可在5个不同分布的未见数据集上实现零样本测试,证明其数据效率极高 [12][18] 真实场景应用 - 在真实世界中测试110个未见物体,整体成功率达86.5%,其中规则形状物体如瓶子、盒子、球类水果和软玩具的成功率分别达到95.0%、93.6%、98.3%和96.0% [14] - 首次实现无严重碰撞抓取小薄物体,如硬币和卡片,对此类传统难点物体的抓取成功率达到60.0%至76.7% [14] - 支持语言引导抓取和杂乱场景抓取,在真实杂乱场景中成功率超过80%,且对光照和背景变化具有鲁棒性 [14] 技术优势与局限 - 核心价值在于用简单设计解决复杂问题,在通用性、高效性和鲁棒性三个维度上突破现有方法的局限 [20] - 当前局限性包括无法处理功能性抓取、对高度杂乱场景适应能力弱、闭环能力不足以及小薄物体抓取成功率仍有提升空间 [17] - 未来发展方向包括拆分演示轨迹为短片段以增强闭环能力、融合视觉反馈以应对动态场景、结合语言模型以提升功能性抓取的理解能力 [19]
北大校友、华人学者金驰新身份——普林斯顿大学终身副教授
机器之心· 2025-10-04 13:30
金驰教授学术晋升与贡献 - 华人学者金驰在普林斯顿大学晋升为终身副教授,任命于2026年1月16日正式生效[1][4] - 金驰于2019年加入普林斯顿大学电气与计算机工程系担任助理教授,在6年任期内AI学术影响力迅速提升[3] - 其晋升是对其在机器学习理论领域所做基础性贡献的高度认可,这些贡献为当前大语言模型的崛起提供了关键数学基石[4] - 金驰与杨笛一、杜少雷等华人学者于2024年获得斯隆奖[6] - 在Google Scholar上,其论文总引用次数已达13,588次[27] 核心理论贡献:非凸优化 - 金驰的研究解决了深度学习革命中的一个根本问题:为何像随机梯度下降这样简单的优化器能有效训练大规模非凸模型[8][9] - 其工作证明,只要存在少量噪声,简单的梯度方法就能有效逃离损失函数景观中的鞍点,并在多项式时间内继续向更优区域探索[12] - 代表性论文《How to Escape Saddle Points Efficiently》(ICML 2017)被引1,111次,《Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent》(COLT 2018)也是该领域奠基性工作[14][17] - 该理论成果解释了简单算法在复杂问题上表现出的“不合理的有效性”,让公司和研究机构敢于投入数十亿美元进行模型训练,确信底层优化过程稳健[17] 核心理论贡献:强化学习 - 金驰的研究为强化学习核心算法的样本效率建立了严谨证明,推动了理论突破[10][19] - 其工作首次证明了无模型算法在复杂设定下具备样本效率,达到了近乎最优的遗憾界限[22] - 代表性论文《Is Q-learning Provably Efficient?》(NIPS 2018)被引1,113次,《Provably Efficient Reinforcement Learning with Linear Function Approximation》(COLT 2020)被引997次[20][22][27] - 该理论保障为开发更稳健、可靠的强化学习算法提供指导,确保其能在高风险、关键应用中安全部署[23] 学术背景与影响 - 金驰拥有北京大学物理学学士学位和加州大学伯克利分校电气工程与计算机科学博士学位[25] - 其博士导师为机器学习领域泰斗Michael I Jordan教授,早期多篇关键论文均与Jordan合作完成[25] - 金驰团队近期领衔开发了最强开源数学定理证明模型“哥德尔-Prover”,其32B参数模型性能大幅超越前代SOTA DeepSeek 671B模型[31]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 17:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]