具身智能之心
搜索文档
“以人为中心”的具身数采逐渐成为首选,产业玩家格局初现~
具身智能之心· 2025-12-29 08:04
文章核心观点 - 当前机器人算法在真实场景中应用困难的核心原因是模型泛化能力不足,而泛化能力依赖于大规模高质量数据,因此如何低成本、规模化地获取高质量数据成为行业关键问题 [2] - 行业为解决数据问题已演变出四条主要技术路线,即在数据质量与获取成本间寻求平衡 [3] - 在多种方案中,“以人为中心”的数据采集技术路线,特别是基于UMI(通用操作接口)理念的便携式设备方案,因其在成本、规模和跨场景能力上的综合优势,正成为行业主流方向 [11][13] - 围绕“以人为中心”的数据范式,已初步形成产业玩家格局,多家公司推出了各具特色的便携式数据采集终端并布局规模化数据生产 [14][26] 行业现状与核心挑战 - 机器人算法研究活跃但真实场景应用少,模型泛化性不足是根本原因,场景稍变即性能下降 [2] - 高质量数据采集面临成本高、周期长、难以规模化、定制化属性高等挑战 [2] 主流数据获取方案 - 行业形成四种核心具身数据获取方案:UMI数据、遥控真机数据、仿真数据与人类视频数据 [3] - **UMI数据**:通过手持夹爪与腕部相机采集,实现不同机器人平台的数据互通与高效采集,为模型通用化训练提供基础 [4] - **遥控真机数据**:获取成本极高,但因真实环境不可替代、数据价值密度高(包含完整任务闭环)、是商业化落地必经之路,仍被视为核心数据类型 [5][12] - **仿真数据**:主流有纯仿真和real2sim2real方案,后者借助真实数据生成更逼真仿真数据,但存在真实性问题,真机泛化是挑战 [6] - **人类视频数据**:规模大、成本低、场景覆盖广,但无法直接取得很好泛化效果,适合预训练阶段 [7] 数据方案的关键评估维度 - **规模化**:高质量和不同场景的数据越多,真实场景效果越好 [8] - **跨本体**:能够跨本体使用的数据发挥空间更大,未来是本体形态百花齐放的时代 [9] - **成本**:低成本是保证规模化的必经之路 [10] “以人为中心”数据方案的优势 - **通用性强,打破平台壁垒**:通过标准化接口实现“无本体依赖”的数据采集,提升数据复用价值 [11] - **数据质量稳定,标注精度高**:内置标准化标注模块,采集过程同步完成精准标注,基于真实物理交互,真实性高 [11] - **采集效率高,成本可控**:实现自动化采集与传输,无需为不同平台单独开发系统,降低前期投入成本 [11] - **便携式设备**:允许在真实场景中连续记录人类完成复杂任务的过程,产生“连贯行为链”数据,并能直接采集海量多样化的人类操作数据 [13] 产业玩家格局与产品 - 行业内“以人为中心”相关玩家主要分为两类:拥有自家机器人本体+数据采集终端产品的公司,以及更聚焦数据领域、提供多模态数采终端和一站式数据服务的公司 [14] - 具身智能领域正出现类似智驾行业的生态圈,智驾领域公司(如Momenta、地平线)近1年来有多位高管和技术核心人员参与创业 [15] - **鹿明机器人**:发布FastUMI Pro多模态无本体数据采集软硬件系统,采用轻量化手持式夹爪方案,整体重量仅600g,负载能力达2kg,并已搭建3个数采厂提供数据服务 [16] - **简智**:发布Gen DAS数据采集设备,轻量化、无线化、便携化,其具身智能数据产线通过走进数千个家庭模式批量制造高质量数据 [18][20] - **它石智航**:发布轻便、模态齐全、可穿戴的具身数据采集系统SenseHub,将视觉、触觉与手部动作数据深度融合,持续记录真实高质量操作行为 [21] - **数元时代**:推出MeData Link系列多模态数据采集终端产品,包括手持式夹爪数采终端,无需定位基站、无线、轻量便携,搭建了规模化真实场景数据采集产线,目标实现日产千小时以上高质量数据,并同步搭建超8000平方米的数采厂 [23][25] 行业发展趋势与竞争关键 - 当前具身智能领域现状是重数据和本体,在本体质量提升的同时,谁掌握更多数据,谁就拥有更多市场话语权 [26] - 对于具身公司而言,能够低成本构建丰富的数据库至关重要 [26]
从长时程推理到精准操纵:LoLA 破解机器人多步任务执行难题
具身智能之心· 2025-12-29 08:04
文章核心观点 - 由中科院、国科大与微软研究院联合团队提出的LoLA框架,通过“长时程潜动作学习”和“多模态编码 - 状态感知融合 - 动作生成”的三层架构,首次实现了长时程语言引导机器人操纵的高效执行,为解决通用机器人在真实场景落地提供了全新解决方案 [1] 现有技术挑战 - 现有视觉-语言-动作模型多聚焦于短时任务,在长时程场景下面临三大核心挑战:时序上下文理解缺失、真实场景状态漂移风险、资源消耗与泛化矛盾 [2][3] - 传统单帧模型忽视历史信息关联,难以追踪多步任务状态,导致动作连贯性不足并易出现重复错误 [4] - 在长时间交互中,微小扰动会逐渐累积,使系统脱离训练分布,引发任务失败 [5][6] - 长时程数据的采集、标注与训练成本呈指数级增长,且模型处理长序列时计算开销巨大,同时难以泛化到不同机器人平台与任务场景 [7][8] LoLA技术架构 - LoLA构建了“多模态编码 - 状态感知融合 - 动作生成”的完整三层技术架构 [9] - **第一层:多模态编码**:采用双分支编码策略,兼顾当前精准感知与历史动态捕捉,以平衡长序列信息保留与计算效率 [11] - **第二层:状态感知潜表征**:该核心融合模块旨在解决视觉-语言表征与机器人物理动作空间的对齐问题 [11] - 当前观测编码:处理多视角图像(主视角、辅助视角、手腕视角),提取高分辨率空间特征,形成当前场景静态快照 [12] - 历史运动编码:采用时空选择性采样策略,将长时程历史帧下采样以降低计算负担,同时保留关键时序信息 [12] - 语言指令融合:将多模态特征与语言指令嵌入拼接,输入预训练视觉-语言模型生成层间键值缓存 [12] - 通过状态transformer并行架构和乘性融合接地机制,构建“具象化锚定”潜空间,实现抽象特征与物理动作空间的精准对齐 [16] - 使用可学习掩码过滤背景干扰,再经潜空间压缩得到紧凑的动作相关表征 [16] - **第三层:动作生成**:基于条件流匹配构建动作专家,将多模态表征转化为平滑连贯的动作序列 [14] - 采用包含28层transformer的解码器架构,以状态感知潜表征输出的键值对为条件,建模动作时序结构 [16] - 通过端到端训练与推理,从纯噪声中逐步解码出精准、连续的多步动作序列 [16] 性能验证 - **仿真基准性能突破**:在SIMPLER和LIBERO两大权威基准测试中显著超越现有先进模型 [15] - 在SIMPLER基准的Google Robot任务中,视觉匹配与变体聚合设置下平均成功率分别达61.5%和54.6% [17] - 在SIMPLER基准的WidowX Robot多步任务中,平均成功率达71.9%,较π₀模型相对提升20.6% [17] - 在LIBERO基准中,覆盖四大任务套件,平均成功率达96.2%,其中长时程任务套件成功率达88.2% [18] - **真实场景跨平台泛化**:在Franka平台设计的28个任务中,单步任务平均成功率46.1% [21] - 在长时程任务中,完成至少两个子任务的成功率最高达33.1%,是π₀模型的2.67倍 [20][21] - **核心组件消融验证**:验证了关键模块的必要性 [23] - 引入多历史帧使平均成功率提升11.4% [24] - 状态感知潜表征模块单独贡献14.5%的性能提升 [24] - 多历史帧与状态感知潜表征联合使用时,模型达到最优性能57.3% [24] 技术贡献与行业影响 - LoLA构建了“高效编码 - 精准接地 - 连贯生成”的技术范式 [25] - 通过时空选择性采样解决长序列处理效率问题,通过状态感知潜表征模块破解模态鸿沟难题 [25] - 其100亿参数规模的模型架构、1100万条真实机器人轨迹的预训练数据以及开源方案,为相关领域提供了统一研究平台 [25] - 该框架推动通用机器人从短时简单任务向长时复杂任务跨越,加速自主机器人在家庭服务、工业生产等真实场景的落地进程 [25] 当前局限与未来方向 - 在复杂扰动场景下的鲁棒性不足,面对突发故障的恢复能力有限 [26] - 端到端长时程任务的绝对成功率仍有提升空间,需进一步降低误差累积 [26] - 未来可探索动态闭环恢复机制与在线自适应调整策略,以增强在真实复杂环境中的容错能力 [26] - 可优化模型轻量化设计,以提升推理速度与部署灵活性 [26]
亚马逊团队15分钟单GPU搞定人形机器人步态训练!Locomotion新方案
具身智能之心· 2025-12-28 18:00
文章核心观点 - 亚马逊FAR实验室提出了一套“算法调优-极简奖励设计-大规模并行仿真”三位一体的快速强化学习方案,首次实现了在单GPU上仅用15分钟训练出鲁棒的人形机器人运动策略,并支持全身运动追踪任务的快速部署,彻底重构了人形机器人从仿真到现实的迭代范式 [2][3][21] 人形机器人强化学习的效率瓶颈 - **算法样本效率低**:传统在线RL算法(如PPO)需丢弃大量历史数据,在高维人形机器人控制中样本利用率低,训练周期长达数小时甚至数天 [3] - **高维控制稳定性差**:人形机器人(29自由度)动作空间复杂,关节限制、力矩平衡等约束导致离线RL算法易出现训练振荡,难以稳定收敛 [4] - **奖励设计冗余繁琐**:传统方案依赖20多项奖励条款,增加调参难度且易导致策略过拟合特定场景,降低真实环境适配性 [5] - **域随机化适配难**:真实场景中的地形变化、外力扰动等要求策略在强随机化仿真中学习,进一步加剧了训练难度与耗时 [6] 三位一体快速训练技术体系 - **第一层:算法优化**:基于优化后的离线RL算法FastSAC和FastTD3,通过关节限制感知动作边界、双重归一化稳定训练、critic网络优化(采用Q值平均替代裁剪双Q学习,搭配C51分布式critic)以及探索与优化超参调优(如Adam优化器,学习率3e-4)等关键技术,实现高维控制的稳定与高效 [8] - **第二层:极简奖励设计**:摒弃冗余奖励条款,设计仅包含核心要素的奖励函数(少于10项),兼顾策略鲁棒性与泛化能力 [10] - **第三层:大规模并行仿真**:依托GPU加速仿真框架,通过环境并行化突破训练瓶颈;在Locomotion任务中采用单RTX 4090 GPU支持数千并行环境,在全身运动追踪任务中扩展至4×L40s GPU,并行环境数达16384;仿真中集成了动力学随机化、PD增益随机化、动作延迟、崎岖地形、推力扰动(每1-3秒一次强扰动)等强域随机化;并利用离线RL算法的数据复用机制,避免数据浪费 [10][11] 方案性能验证 - **Locomotion任务**:在Unitree G1(29自由度)与Booster T1(29自由度)机器人上验证;单RTX 4090 GPU仅需15分钟完成训练,线性速度追踪奖励显著超越PPO;在强推力扰动、崎岖地形场景下,PPO难以稳定收敛而FastSAC/TD3表现稳健;策略能适应平坦/崎岖地形、随机动力学参数、频繁推力扰动等多种场景,无需额外微调即可迁移;FastSAC在复杂场景下略优于FastTD3 [12][17] - **全身运动追踪任务**:在舞蹈、搬箱子、推力抵抗等复杂任务中,在4×L40s GPU支持下,FastSAC/TD3训练速度远超PPO,舞蹈任务(时长超2分钟)的运动追踪奖励更快达到收敛阈值 [15][18] - **真实硬件部署**:训练后的策略成功部署到真实Unitree G1硬件,无需额外微调即可稳定运行;成功复现仿真中的速度追踪步态,在轻微不平坦地面保持稳定;能精准执行舞蹈、搬箱子等复杂动作,抵抗环境中的轻微扰动 [18][19][21] 方案的局限与未来方向 - **复杂地形适配**:当前主要验证平坦与崎岖地形,未来可扩展至台阶、斜坡等更复杂地形场景 [22] - **动态障碍物避障**:未融入避障逻辑,需结合视觉感知扩展奖励函数,实现感知-控制一体化 [22] - **算法融合潜力**:可集成最新离线RL优化技术(如样本效率提升、探索策略改进),进一步压缩训练时间 [22] - **多机器人适配**:当前聚焦双足人形机器人,未来可扩展至四足、多臂等更广泛机器人形态 [22] 方案的行业影响 - 核心贡献在于建立了“离线RL算法-极简奖励-大规模并行仿真”的快速迭代范式,通过算法调优解决高维控制稳定性问题,通过极简奖励降低工程复杂度,通过并行仿真提升数据吞吐量 [21] - 其开源实现(Holosoma仓库)与硬件部署案例,为机器人研究者提供了开箱即用的快速开发工具,大幅降低人形机器人控制的研发门槛,加速了通用人形机器人从实验室走向真实应用的进程 [21]
为什么π系列对行业产生了这么大的影响?
具身智能之心· 2025-12-28 11:42
π系列VLA模型的技术演进与行业影响 - π系列是视觉语言动作模型领域的里程碑,以持续技术突破引领生成式AI时代的机器人学习范式,重塑行业应用逻辑 [2] - π0于2024年10月发布,首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [3] - π0.5于2025年4月发布,通过异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,利用人类视频训练使数据成本降低90%,大幅提升跨本体适应性并降低机器人规模化部署门槛 [3] - π0.6于2025年11月发布,通过RECAP强化学习赋能零样本泛化与高效微调,在真实世界效率与精度超越人类,实现工业级100%任务完成率与数十分钟快速换型,推动柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建真机演示,如叠衣服、拆箱子等,或基于此思路改进优化,其新工作发布常引起行业反响 [3] VLA模型学习与应用的实践挑战 - 基于π系列完成数据、模型训练优化、部署一整套任务对初学者非常困难,有用户甚至踩坑半年无法真正入门 [5] - π系列模型存在“不听话”、不好调试、难以达到预期效果的问题,导致用户花费相当多时间在“踩坑”上 [4] - 对于更新快速的技术路线,如何有效学习VLA难倒了相当多同学,许多人即使拥有真机也不知如何使用 [8] 具身智能之心的VLA实战课程解决方案 - 具身智能之心基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法,旨在解决用户缺乏真机和项目指导的问题 [7] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,手把手带领学员复现π0系列 [8] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [13] - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂 [17] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10余篇 [20] - 课程面向人群广泛,包括正在具身领域求职、需要实战项目的同学,VLA领域入门进阶者,从事具身智能研究的各阶段学生,以及希望从传统领域转行进入具身的从业者等 [25] - 课程要求学员具备一定的Python和PyTorch基础,推理建议使用3060及以上显卡,训练建议使用2张以上3090ti显卡或可自租云服务器资源 [25] - 学员学后有望掌握真机调试与数据采集、各类VLA算法在真机上部署、对VLA模型量化有深入了解,并对具身产业落地有清晰认识,简历上可获得足够多的项目支撑,达到1-2年以上算法工程师经验 [25] - 课程于2025年12月30日正式开课,有效期2年,购买后不支持退款,提供微信VIP群内答疑 [26]
REALM:机器人操作任务的real2sim验证基准
具身智能之心· 2025-12-27 18:03
文章核心观点 - 捷克理工大学与阿姆斯特丹大学的研究团队构建了一个名为REALM的高保真仿真环境与基准,旨在解决Vision-Language-Action模型在机器人操纵任务中泛化能力评估的挑战,其核心目标是建立仿真与真实世界性能的强相关性,以实现大规模、低成本的评估 [2] 相关工作与差异化优势 - 现有机器人操纵泛化基准存在显著局限,如支持的扰动类型少、技能和物体种类有限、仅支持单视角等 [3] - REALM在多个维度上具有全面优势:涵盖6种视觉、8种语义、7种行为扰动,支持7项技能、10个场景和超过3500个物体,同时具备高保真视觉、控制对齐和多视角功能 [3][4] - 现实-仿真差距源于视觉保真度不足和控制对齐缺失,REALM通过重新设计机器人控制器并优化物理参数,同时提升了视觉与控制的真实性 [4] 基准设计核心要素 - **技能与任务集**:基于DROID数据集设计了7项核心操纵技能,包括拾取、放置、推动、旋转、堆叠、打开、关闭,基准包含两个任务集 [5] - **扰动设计**:为系统测试泛化能力,设计了15种扰动,覆盖视觉、语义、行为三大类别 [6] - **评估指标与控制对齐**:采用分层进度指标替代二元成功率,对技能进行更细粒度的性能反映;通过重新实现控制器并优化14个物理参数,实现了仿真与真实轨迹的高一致性 [9] 真实-仿真对齐与验证 - 通过近800组轨迹对测试验证,仿真与真实世界的任务进度呈现强线性相关,所有设置下p值小于0.001,证明仿真是真实世界性能的可靠代理 [11] - 在验证视觉差距时,模型在真实与仿真帧上的注意力图余弦相似度得分达0.85,表明高保真视觉设计有效避免了模型预测失真 [11] 关键实验结果与发现 - **视觉泛化**:纯视觉扰动对模型性能有显著影响,平均RMSD达0.12以上,其中视角变化和场景干扰物影响最显著 [14] - **语义泛化**:语义扰动对模型构成巨大挑战,需要世界知识和人类需求关联的扰动影响最显著 [17] - **行为泛化**:行为扰动是最具挑战性的类别,模型在跨物体泛化时表现极差,面对未见过的物体时性能大幅下降;物体姿态扰动导致两模型性能均下降0.12 [18] - **鲁棒性与任务完成**:-FAST模型在所有扰动下的平均任务进度最高,在9/10任务中成功率领先;所有模型完成简单任务的平均时间长达20-30秒,且方差较大,说明在未知环境中难以高效稳定地完成任务 [19]
我们的25年竟然做了这么多事.....
具身智能之心· 2025-12-27 18:03
公司年度业务总结 - 公司在过去一年中积极拓展业务,扩充了许多B端合作伙伴,同时其C端内容也逐步从通用内容转向专业化与精细化运营[1] - 公司运营的“具身智能之心”平台在过去一年创办了近40个具身主题社群,其付费社区成员数量已超过2000人[3] - 公司通过各类内容为具身智能行业培养了近千名从业人员和研究人员,并为多个创业团队提供了投融资渠道和产业信息服务[2][3] 行业发展趋势 - 具身智能行业在年初仍处于发展初期,企业招聘的多为无经验或应届毕业生,但到年底,行业参与度显著提升,已开始能够招募到拥有约1年从业经验的候选人[1] - 行业内相关工作机会大量涌现,许多此前在校的学生已成长为公司的首席科学家或联合创始人[3] 年末促销活动 - 公司在12月24日至1月5日期间推出一系列年终福利优惠活动[5] - 活动内容包括:所有具身课程提供7.5折优惠,知识星球新成员加入可享6折,老学员续费可享5折优惠[7] - 活动期间,具身科研机械臂产品提供最高1500元的折扣,此为今年首次推出此类硬件优惠[7] - 活动期间,具身课程消费累计满3000元,可获赠一门高质量具身课程[7] - 公司同时提供论文辅导与1对1求职项目辅导服务,并享有相应优惠[7]
准备开放具身的榜单,模型、本体、数采、开源贡献等多个维度
具身智能之心· 2025-12-27 18:03
榜单发布背景与目的 - 近期多家具身智能公司和机构联系发布方,期望出具不同维度的榜单 [1] - 本次榜单力图做到客观公正 [2] - 发布方欢迎各家机构积极提供素材和数据以供参考 [2] 榜单涵盖维度 - 榜单计划从五个具体维度展开评选 [3] - 具身基座模型是评选维度之一 [5] - 本体销量是评选维度之一 [5] - 比赛冠军成绩是评选维度之一 [5] - 开源贡献是评选维度之一 [5] - 数据采集服务商是评选维度之一 [5]
近2k star的RLinf又又又上新了!支持真机强化学习,像使用GPU一样使用你的机器人~
具身智能之心· 2025-12-26 11:38
RLinf v0.2 框架发布与核心特色 - 公司正式发布面向真机强化学习路线的RLinf v0.2版本,旨在支持与仿真路线并行的技术探索,解决具身智能领域的数据来源之争[3] - 该框架允许用户将机器人视为与GPU同层级的可配置资源,通过编写YAML配置文件即可完成模型与机器人的映射与数据通信,极大降低了使用成本[3][6] - 框架设计旨在解锁大规模分布式真机强化学习训练范式,这被视为继扩大数据规模和模型规模之后的第三条发展路径:扩大真机规模[5] 系统架构与设计理念 - 提出Macro-to-Micro Flow (M2Flow) 新一代编程范式,将上层工作流与底层计算优化解耦,以兼顾系统灵活性与高效性[7] - 系统设计支持全异构软硬件集群配置,能够灵活适配端云协同场景,例如在NUC上运行控制器、在RTX 4090上进行推理、在A800上进行训练[8][10] - 采用全异步设计,将端侧推理节点与云侧训练节点解耦,通过数据通道进行周期性同步,实现训练与推理并行,以提高训练效率[11][14] 算法支持与数据效率 - 新增支持全异步off-policy强化学习算法,包括SAC、CrossQ和RLPD等,以应对物理世界数据收集效率低的挑战[11] - 该设计特别支持人在环介入的方法,允许在训练过程中融入专家示教或实时标注数据,从而提升数据利用率[11] - 框架同时支持多种仿真器、视觉语言动作模型、自定义策略和强化学习算法,提供了广泛的技术路线兼容性[4] 实验验证与性能表现 - 基于Franka机械臂和常见物品设计了“Charger”和“Peg Insertion”两个快速验证任务进行真机实验[12] - “Charger”任务使用异步SAC算法训练,过程中约有20次人在环鼠标接管;“Peg Insertion”任务使用异步RLPD算法训练,并预先采集了20条人类操作数据[12] - 实验结果显示,两个任务均能在1.5小时内收敛,收敛后“Peg Insertion”任务可连续成功100+次,“Charger”任务可连续成功50+次[15] - 成功验证了位于不同物理空间的两台Franka机械臂同时进行真机强化学习的可行性[16][23] 开发背景与团队生态 - RLinf框架自2025年9月1日发布以来,几乎保持每两周更新一次功能的开发速度,并于2025年12月17日正式发布了面向仿真路线的v0.1版本[1] - 开发团队由清华大学、北京中关村学院、无问芯穹联合北京大学、北京航空航天大学等多单位成员组成,背景涵盖基础设施、算法和机器人领域,形成了新的科研生态[20] - 团队秉持算法与基础设施需协同演进的理念,认为基础设施应支撑算法研发,同时算法应指导基础设施的构造[20]
盘了一下,25年竟然做了这多事.....
具身智能之心· 2025-12-26 11:38
公司年度业务总结与成果 - 公司在2025年积极扩充B端合作伙伴,同时C端内容从通用化转向专业化、精细化发展 [1] - 公司旗下平台为具身智能行业培养近千名从业和研究人员 [2] - 公司创办近40个具身智能相关社群,其付费社区成员超过2000人 [3] - 公司为创业团队提供了投融资渠道和产业信息服务,并见证部分早期学员成长为首席科学家、联合创始人等角色 [3] 行业发展趋势 - 2025年初,具身智能行业尚处早期,企业招聘的多为无经验或应届毕业生 [1] - 至2025年末,行业参与度显著提升,相关工作机会层出不穷,头部公司已能招募到拥有约1年从业经验的候选人 [1] 年末促销活动详情 - 活动时间为12月24日至1月5日 [5] - 所有具身智能课程提供7.5折优惠 [7] - 知识星球新成员加入可享6折,老学员续费可享5折优惠 [7] - 高性价比的科研用机械臂产品最高可减免1500元,此为年度首次优惠 [7] - 活动期间,具身课程消费满3000元,赠送一门高质量具身课程 [7] - 提供论文及项目辅导服务,其中项目辅导包含1对1求职辅导,并享有优惠 [7]
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 08:55
文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - **生成逻辑重构**:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - **动作表示离散化**:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - **“以终为始”的解码策略**:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - **稀疏混合专家网络**:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - **多任务联合训练**:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - **在线强化学习优化**:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - **NAVSIM-v1基准测试**:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - **NAVSIM-v2基准测试**:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - **消融研究验证**:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - **定性分析**:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]