Workflow
自动驾驶之心
icon
搜索文档
SOTA!FaithFusion:即插即用的生成重建统一框架(百度&南大)
自动驾驶之心· 2025-12-16 08:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | YuAn Wang等 编辑 | 自动驾驶之心 破解核心痛点:生成式重建中的几何一致性与创造性平衡 无论是物体级还是场景级三维任务,"重建" 与 "生成" 的融合始终面临核心矛盾:如何兼顾 生成的创造性与多样性 ,同时保障 几何重建对原始观测的保真度 。在三 维场景重建领域,3D 高斯泼溅(3DGS)的高保真几何能力与扩散模型(Diffusion)的外观生成能力结合,已是新视角合成的主流路径,但因缺乏像素级、3D 空间一 致的编辑准则,常出现过修复(篡改可信区域)和几何漂移(未观测区域失真)问题。 为缓解这一矛盾,现有方法多采用 "外部约束" 范式:要么从生成侧引入 LiDAR、HDMap 等外部先验限制 Diffusion 自由度,要么改造 3DGS 重建侧强化保真。但这 类方案依赖额外输入或定制化改造,既抬高落地成本,也限制了通用性。 FaithFusion 的核心突破的是跳出 "外部依赖",从 3DGS 模型自身挖掘内在指导信号。其摒弃经验 ...
手搓了一辆自动驾驶全栈小车,面向科研......
自动驾驶之心· 2025-12-16 08:03
产品定位与核心价值主张 - 公司推出“黑武士001”自动驾驶全栈小车,定位为教研一体轻量级解决方案,旨在解决科研平台价格高昂与教学套件不完整、上手慢的行业痛点 [2] - 产品核心优势在于高性价比,全栈配置售价为36999元,远低于性能强大但价格堪比小型车的科研级平台 [2] - 该方案设计为操作简单、快速上手,旨在帮助新手快速解锁自动驾驶全流程实操,并附赠模型部署、点云3D检测及多传感器融合三门课程以提升价值 [2] 目标用户与应用场景 - 目标用户广泛覆盖本科生学习与比赛、研究生科研与求职项目、高校实验室以及职业培训公司等多个教育层级 [4] - 产品支持感知、定位、融合、导航、规划等多个自动驾驶功能平台,适用于从学习进阶到科研发论文、项目落地的完整需求链条 [4] 硬件配置规格 - 传感器套件包括:Livox Mid360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25m)、奥比中光Gemini2 TOF深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU(采样率100Hz) [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力达100 TOPS [34] - 车辆采用阿克曼底盘,整备质量30kg,车体尺寸为620mm x 400mm x 320mm(长x宽x高),最大运动速度可达2m/s,续航时间超过4小时 [23][25][26] 软件功能与性能展示 - 软件基于ROS、C++、Python框架,提供一键启动的开发环境 [28] - 功能演示覆盖室内、室外、地库及夜间等多种复杂场景,展示了包括2D/3D激光建图、点云3D目标检测、多传感器融合SLAM、车辆导航与避障等核心能力 [6][8][10][12][14][16][18][20] - 支持的软件功能模块丰富,涵盖2D目标检测与分割、深度估计、多种模式的SLAM(视觉、激光、惯性及其融合)、点云处理以及车辆控制等 [29] 产品使用与支持 - 产品提供详细说明书,内容涵盖硬件配置、软件环境、系统启动、各功能模块使用教程及注意事项 [30] - 系统启动流程明确,包括车辆上电、进入Ubuntu 20.04桌面系统及配置网络连接等步骤 [41] - 售后政策为1年内支持非人为损坏的售后维修,对于因个人操作或修改代码导致的损坏,公司提供免费维修服务 [52]
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 08:03
文章核心观点 文章是一篇对当前开源强化学习训练框架的技术调研与对比分析,作者基于其多模态模型在实际环境中进行多轮强化学习训练的业务需求,重点评估了verl、slime、AReaL、RL2等框架,并最终选择了AReaL框架 其核心观点在于,当前强化学习训练框架在适配复杂、长尾的Agentic环境时面临挑战,而异步训练架构与灵活的环境交互设计是解决这些挑战的关键方向 [2][3][11] 强化学习训练框架的现状与挑战 - 开源社区强化学习训练框架呈现百花齐放的状态,包括老牌的openlhf、trl、unsloth、verl以及今年新开源的slime、AReaL、Rlinf、RL2、ROLL等 [2] - 目前没有一款框架能很好地适配多模态模型进行Agentic强化学习训练,主要难点在于Agentic环境与具体业务强相关,难以从框架层面抽象出通用函数或类来适配所有环境 [2] - 作者在调研中主要纠结于几个关键点:框架的社区活跃度与环境适配代码修改量、训练过程中的GPU编排问题、数据流向与数据结构的设计,以及异步训练的支持程度 [2][3][5][6] 同步与异步训练架构的对比 - 在2025年前半年的RLHF和RLVR时代,训练长尾效应不明显,因此早期成熟的强化学习训练框架(如verl)主要采用训练和推理同步的架构方案 [3] - 同步训练架构遵循先推理后训练的固定流程,可能导致训练效率低下和GPU资源空转,例如在相同GPU集群上交替卸载模型,或在不同集群上采用流水线方案 [3][5] - 异步强化学习训练成为新框架的优先支持特性,它能提升效率,但会引入数据偏移问题,使训练从on-policy退化为off-policy,并且需要为训练和推理分配不同的GPU资源以优化资源利用率 [11] 关键技术实现与设计考量 - **训推分离**:当前几乎所有强化学习训练框架都采用训练与推理分离的架构,训练引擎使用FSDP、Megatron,推理引擎采用sglang或vllm,中间通过Ray进行资源分配与调度 [12] - **权重更新机制**:训练侧更新模型权重后,需将新权重传递给推理引擎,涉及不同模型切分方案间的适配,常用技巧包括分桶传输、通过Router转发等以降低通信开销 [16][17][18] - **训推Gap问题**:由于推理引擎的优化(如KV量化、算子融合)可能导致其输出的logits与训练引擎存在差异,解决方法包括使用重要性采样来拟合分布差异,并需注意推理量化(如4bit)可能因分布差异过大而被裁剪,导致训练不稳定 [19][20][21][22] - **Token一致性**:为避免二次编码导致的token分布不一致,所有强化学习训练框架在rollout返回时会同步返回输出的token ids,直接供训练引擎使用 [23] 环境交互与Agentic训练支持 - 环境交互部分在所有强化学习框架中均为异步实现,以避免阻塞 [28] - verl框架的Agent多轮训练逻辑相对僵化,其设计以工具调用视角为主,处理流程写死,难以适应每个rollout环境状态不一致的复杂交互需求 [24][25] - AReaL和slime框架在环境适配上设计更巧妙,支持通过自定义函数或工作流基类来实现复杂的、自定义的环境交互逻辑,灵活性更高 [26][27] 异步训练与长尾问题解决方案 - **异步训练核心**:采用生产者-消费者模型,推理引擎作为生产者进行rollout,训练引擎作为消费者获取数据进行训练,通过消息队列管理数据 [29] - **陈旧度管理**:引入staleness参数控制数据有效性,当rollout数据的模型版本号与当前最新模型版本号差距超过设定值(通常为1-2)时,数据将被丢弃,以防止因模型分布偏离过大导致训练无效 [32] - **部分Rollout**:这是解决长尾任务导致资源浪费的关键技术,当需要更新推理引擎权重时,可暂停正在进行的rollout任务,更新权重后从中断处继续,从而兼顾训练连续性与模型更新及时性 [37][38] 强化学习算法与奖励设置的思考 - 当前大语言模型的强化学习算法主要分为序列级奖励和Token级奖励两类,根本上都是PPO算法的变体 [39] - 奖励设置在Token粒度上难度较大,因为很难为序列中的每个Token设计客观合理的奖励,而实际业务的动作粒度通常由多个Token组成,因此是否存在针对业务动作粒度的最优奖励方案仍有待验证 [39] - 强化学习训练的成功关键被认为在于环境和奖励的设置,当前主流方案仍依赖大语言模型或智能体作为评判者,并辅以多种提示词技巧,但根本上仍无法完全避免奖励黑客问题 [42] 各框架特点总结与选择建议 - **verl**:代码工程化程度高,侧重训练与推理引擎的调度,践行SPMD思想,但异步训练支持较晚,且Agent循环控制流较为僵化,修改成本高 [12][25][43] - **slime**:代码简洁,流程明确,但早期对FSDP适配及异步训练的支持尚不成熟 [43] - **AReaL**:代码结构复杂但质量高,异步训练方案成熟,环境交互设计灵活,支持自定义工作流,是作者最终的选择 [2][29][44] - **RL2**:代码逻辑简单,适合初学者入门以理清强化学习训练的基本逻辑 [45]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-15 19:33
自动驾驶行业高端人才市场现状 - 高端自动驾驶人才在市场上仍然非常抢手 多家新势力及头部Tier 1公司为硕士学历人才提供高达70万元人民币的年薪包 以争抢人才[2] - 许多参与过工业界预研岗位的学生在毕业前已被公司内定 反映出市场对具备实战经验人才的强烈需求[2] 企业对人才的核心能力要求 - 企业对人才的核心要求是“具备完整的科研能力” 而非简单地阅读论文[2] - 完整的科研能力具体指:能发现问题、定义问题、提出解决方案 并能形成方法论输出观点[2] 自动驾驶领域科研人员面临的普遍难题 - 导师不熟悉自动驾驶方向 需要学生自行调研领域痛点与难点[7] - 缺乏真实数据、算力资源以及明确的改进方向 导致研究进展缓慢[7] - 实验设计能力不足 做不出有效结果 缺乏解决问题的能力[7] - 在论文写作方面存在困难[7] 自动驾驶之心提供的科研辅导服务 - 提供1对1科研辅导业务 旨在帮助研究人员快速提升能力[3] - 辅导覆盖自动驾驶多个前沿技术方向 包括端到端、VLA、世界模型、强化学习、3D目标检测、BEV感知、Occupancy Network、轨迹预测等[4] - 提供的具体服务包括论文选题、论文全流程指导、实验指导以及申博指导[12] - 辅导服务已产出多篇论文 并被CVPR、AAAI、ECCV、CoRL、ICLR等顶级会议和期刊收录[9] - 服务目标涵盖自动驾驶顶会/顶刊、SCI各分区、中科院各分区、EI/中文核心以及毕设论文、申博和比赛支持[13]
45万亿!中国智驾的新风口来了
自动驾驶之心· 2025-12-15 19:33
L4级智能驾驶商业化进程总览 - L4级智能驾驶商业化进程显著提速,呈现政策、技术、场景三轮驱动格局 [1] - 在政策红利释放、核心技术进步与应用场景拓展的共同作用下,2025年五城L4车辆保有量预计突破10万辆,带动相关产业链规模超200亿元 [2] - L4级智能驾驶正从技术验证阶段迈向商业化爬坡阶段,预计2035年中国L4及以上智驾市场规模将超过45万亿元,渗透率达13%以上 [45] 发展背景与驱动因素 - 政策层面,国家级规划与五城全域开放试点明确事故责任划分,破除制度障碍 [2] - 技术层面,系统成本持续下探,车路云协同能力增强,提升复杂环境可靠性 [2] - 场景层面,Robotaxi、无人配送、干线物流等多场景试点加速从低速封闭向中高速开放场景跨越 [2] - 资本集中注入头部企业,政策逐步开放多类场景的L4智驾试点,商业化按“中低速封闭场景→高速开放场景”路径逐级拓展 [3] - 技术端以“车-云”与“车-路-云”协同为标配,感知-决策-控制专利持续攀升,推动研发测试迅速转入试运营和规模化落地 [3] 商业化应用现状与模式 - 低速半开放和封闭场景L4智驾基本已进入商业模式探索阶段和全面推广应用阶段,中高速开放/半开放场景当前多处于早期阶段 [6] - L4智驾技术的商业化应用需要场景提供方、技术公司、车企及供应商、金融机构与政府部门的共同协作 [7] - 当前商业模式主要包括产品销售与代运营两类,并以产品销售为主要方向 [8] - 商业上正从单点工具发展为跨场景运力平台,融入共享经济与多业态联动 [45] 园区服务场景 - L4智驾车辆根据工业和商业文创等不同类型园区的需求提供差异化服务 [10] - 工业园区多采用牵引车、叉车等车型,由智驾企业提供产品与技术支持;商业园区则更多使用小型车辆进行零售配送或巡防,运营方式包括园区自营和第三方代运营 [10] - 应用L4技术后,工业园区智能重叉车年均单车节省成本18万元,商业园区智能巡防车年节省成本约7万元 [11] 环卫场景 - 环卫场景覆盖园区与城区,涵盖清扫和垃圾清运等环节,车型包括扫路车、洒水车和垃圾车 [13] - 合作模式分为自建车队的重资产模式与提供技术服务的轻资产模式,并可进一步细分为四种类型 [14] - 园区场景中,L4智驾可替代人工清扫,年节约成本11%;城区场景中预计电动智驾环卫车可比传统柴油车节省21%的年均成本 [15] 城区配送场景 - 城区配送聚焦3-5公里范围内的社区服务,客户包括商超、餐饮和快递公司 [18] - 主流商业模式为“直接销售+订阅服务”,车辆价格已低于10万元,订阅费每月约2000–3000元 [19] - 同时也可采用租赁模式,由厂商负责运营。该模式通过“中转直发”提升物流效率,预计每年可为快递驿站降低超过4万元成本,降幅达19% [20] Robotaxi场景 - Robotaxi已形成以智驾公司、主机厂和出行平台为核心,政府、通信与安全机构辅助的成熟“金三角”模式,特斯拉等企业还在探索包括车主在内的四方协作模式 [23] - 在客单价25元、日接单17笔的假设下,单车年营收可超15万元,年均成本约12万元,毛利润约3万元,毛利率21%,接近传统出租车水平 [24] Robobus场景 - Robobus应用于城市微循环、地铁接驳及园区景区内部线路,城市公交多采用公交公司主导、多方协同的运营机制,园区景区则常见技术方直接参与运营 [26] - 一辆49座Robobus在60%满座率下,年营收预计近70万元,年成本约51.3万元,毛利润超17万元,毛利率可达25% [27] 干线物流场景 - 干线物流存在轻资产、重资产和混合三类合作模式,目前以L2辅助驾驶为主,正逐步向高阶智驾发展 [29] - 预计进入小规模运营阶段后,年均成本将降至55万元,与传统燃油车持平甚至略低;大规模运营后成本将进一步降至44万元,相比传统车辆节省17万元 [29] 港口场景 - 港口场景以销售与代运营为主要商业模式,销售包括解决方案和整车两种形式 [31] - DCV无人集卡已实现成本优势,年省约6万元;IGV、AGV和ASC车型随着规模扩大和技术成熟,未来成本还将进一步下降 [32] 航空港场景 - 航空港场景目前仅采用“整车销售+软件服务”模式,由地服公司运营,不涉及代运营 [34] - 因作业强度大、容错率低,L4技术对提升安全与效率具有关键作用,已应用于摆渡车、行李牵引车等车型,并在国内外多个机场进行测试与落地 [34] 矿山场景 - 矿山场景中L4车辆主要用于矿石与人员运输,合作模式包括向矿企提供解决方案或按运输量收费 [36] - 智驾矿卡可显著降低人工成本,单车年均节省超过40万元司机费用,同时安全性更高,但车辆购置与运维成本仍较高 [37] 仓储场景 - 仓储场景以“硬件+软件”结合服务为主,提供AGV/AMR设备及调度管理系统 [39] - 主流模式包括销售、租赁和代运营,早期以销售为主,如今合作形式日趋多元 [40] - 应用L4技术后,仓储可实现数字化运营,年均单车节省约2万元人工成本 [41] 技术发展趋势 - 在技术上,硬件趋向冗余与容错设计,软件依托端到端架构与多模态模型实现感知和伦理决策,车路云融合实现全局优化 [45]
小鹏最新一篇基于潜在思维链世界模型的FutureX,车端可以借鉴...
自动驾驶之心· 2025-12-15 14:00
文章核心观点 - 提出一种名为FutureX的新型端到端自动驾驶框架,该框架通过将思维链推理融入潜在世界模型,在执行运动规划前对假设的未来场景进行推理,从而在复杂动态交通环境中生成更安全、更合理的运动规划 [3][8][30] - FutureX的核心创新在于引入了“潜在思维链推理”概念,将推理步骤与潜在世界模型的前向滚动预测相结合,并设计了“自动思考开关”来根据场景复杂度动态选择“思考模式”或“即时模式”,以平衡性能与实时性需求 [3][6][8] - 实验表明,FutureX能显著提升现有端到端基线模型的性能,例如在NAVSIM数据集上,使TransFuser的预测驾驶员模型得分提升了6.2,并在多项指标上达到当前最优性能 [3][13][27] 背景回顾:端到端自动驾驶的挑战与机遇 - 端到端自动驾驶系统通过单一神经网络直接将传感器输入映射为控制输出,执行高效的一次性前向预测,但缺乏在复杂环境中的适应性和可解释性 [5] - 人类驾驶员在决策前会进行未来场景模拟,这种内在推理能力对于在高度动态的交通环境中做出安全决策至关重要,而现有端到端系统缺乏这种能力 [5] - 受大型语言模型中思维链机制的启发,自动驾驶领域开始探索将推理融入规划,但现有方法多停留在文本描述层面,未能与实际的规划和控制过程紧密结合 [6] FutureX框架方法论 - **自动思考开关**:评估当前场景的规划难度,决定是否激活潜在世界模型进行额外推理,以在复杂场景中优化轨迹,在简单场景中快速响应 [7][8][18] - **思考模式**:当开关激活时,潜在世界模型执行思维链引导的滚动预测,生成一系列未来场景的潜在表征,随后由总结网络利用这些未来信息优化初始轨迹 [3][7][12] - **即时模式**:当开关判断为简单场景时,系统绕过世界模型,直接通过策略网络和总结网络快速生成运动规划 [3][7] - **潜在思维链推理**:将思维链重新定义为在潜在特征空间内进行的、可学习的“世界模型-策略”循环,每个推理步骤对应世界模型基于一个短期子轨迹进行的未来状态模拟 [6][9][16] - **基于思考的轨迹优化**:总结网络以初始轨迹和思维链推理生成的未来潜在状态序列为输入,预测轨迹偏移量,输出优化后的最终轨迹 [17] 实验验证与性能表现 - 在NAVSIM数据集上,FutureX使TransFuser的预测驾驶员模型得分提升了6.2 [3] - 在CARLA的Longest6基准测试中,FutureX在纯视觉和视觉-激光雷达多模态设置下均超越了强大的基线模型(如UniAD、VADv2、TransFuser等),在无过错碰撞、可行驶区域合规、自我进度等多个关键指标上达到最优 [27] - 定性结果显示,FutureX能够通过及时刹车或变道超车来避免碰撞,并能提供更合理的转向规划 [28] - 在效率方面,FutureX通过自动思考开关实现了性能与延迟的平衡,例如在特定配置下,其延迟为31.3毫秒±0.6毫秒,同时PDMS得分达到89.2 [29]
世界模型与自动驾驶:最新算法&实战项目(特斯拉、视频、OCC等)
自动驾驶之心· 2025-12-15 14:00
课程核心信息 - 课程名称为世界模型小班课,是继《端到端与VLA自动驾驶小班课》后推出的进阶课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地,助力学员理解端到端自动驾驶 [12] - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,并提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表CCF-A论文2篇及若干CCF-B论文 [4] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [4] 课程大纲与内容 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)及其在业界解决的问题和应用环节,并介绍相关数据集与评测 [7] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些内容是当下世界模型求职面试频率最高的技术关键词 [7][8] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法可扩展为自车轨迹规划以实现端到端 [10] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备与公司关注内容 [11] 关键技术覆盖 - 课程将复习Transformer基本概念并扩展到视觉Transformer,讲解为多模态大模型奠定基础的CLIP和LLaVA [13] - 详细介绍BEV感知基础知识及常见的占用网络,讲解扩散模型理论知识及其在多模轨迹输出中的应用 [13] - 梳理世界模型中常提的闭环仿真、NeRF和3DGS的核心概念,并讲解其他生成式模型如VAE、GAN以及Next Token Prediction [13] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World等具体工作 [14] 面向人群与学后收获 - **面向人群要求** 学员需自备GPU,推荐算力在4090及以上,具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等基本概念,具备概率论、线性代数基础及Python和PyTorch语言基础 [15] - **预期学习成果** 学完课程能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,可复现II-World、OpenDWM等主流算法框架,并能将所学应用到项目设计中,对实习、校招、社招均有助益 [15] 课程进度安排 - 课程章节按计划解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [17]
「CV顶会王」李弘扬投身具身智能赛道!
自动驾驶之心· 2025-12-15 08:04
公司创业动态 - 香港大学数据科学研究院助理教授、上海人工智能实验室OpenDriveLab研究科学家李弘扬已进入具身智能赛道创业 [3] - 公司围绕UniVLA的研究方向进行机器人Manipulation攻关 目前已形成长程任务的Demo [3] - 公司已组成数十人的研发团队 研究领域涵盖VLA、机器人、无人驾驶和端边计算芯片 [4] - 公司走的同样是「基座模型 + 机器人本体」的全栈自研路线 [10] - 公司愿景是通过提升少样本泛化能力 实现人形机器人在全场景下的规模化落地应用 [10] - 团队即将发布的核心模型已达到国际一流水准 且在技术跟商业化上足够清晰 [11] 创始人学术与技术成就 - 创始人李弘扬的主要研究方向为自动驾驶、具身智能及端到端智能系统应用 [6] - 其主导的《Planning-oriented Autonomous Driving》获得IEEE CVPR 2023最佳论文奖 掀起自动驾驶界「端到端」巨浪 [6] - 提出的UniAD框架将目标检测与跟踪、地图预测、轨迹预测、占据栅格预测、规划整合为同一个基于Transformer的端到端网络框架 在公开数据集nuScenes的所有相关任务上都大幅优于同类型SOTA方法 [6] - 提出的俯视图感知方法BEVFormer曾入选2022年AI论文100强 成为业界视觉检测基准 [7] - 在CVPR、ICCV、ECCV、NeurIPS、CoRL、ICLR、TPAMI、TIP等国际顶尖会议/期刊上发表论文数十篇 多次担任国际顶尖会议领域主席 [7] - 在具身智能领域 其团队构建了超大规模真实机器人操控数据集「AgiBot World」 基于百万真机、千万仿真数据集 覆盖了五大行业场景 [7] - 2025年5月 团队在arXiv平台发表论文《UniVLA: Learning to Act Anywhere with Task-centric Latent Actions》 提出以任务为中心的潜在动作框架 [7] 核心技术框架UniVLA - UniVLA框架通过无监督学习从视频数据中推导出潜在动作表示 支持跨实体和环境的机器人策略学习 实现机器人高效跨场景部署 [7] - 框架特点在于通过两阶段训练解耦任务相关与无关动态 利用DINO特征空间和语言指令增强语义对齐 结合轻量级解码器适配不同机器人硬件 [9] - 相比传统方法 UniVLA显著降低了对标注数据的依赖 仅需少量数据即可在多任务基准测试中达到最优性能 并支持从互联网视频到真实机器人的高效迁移 [10] 行业观点与趋势 - 李弘扬在2025地平线技术生态大会上表示 具身智能一定会体现出Scaling law 目前全球真正算得上做过Scaling law实验的只有一家公司 即Generalist AI(GEN-0模型) [10] - 如何就算法、数据、硬件或Infra建立一套高效率的数据采集系统 在具身智能领域是非常关键的课题 [10] - 近两年 除了有数位自动驾驶大拿创建具身智能公司外 也有多位学界专家选择投身具身智能领域 包括卢策吾、卢宗青、邵林、王鹤、赵明国等知名学者 [11]
理解 RL学习的本质!
自动驾驶之心· 2025-12-15 08:04
文章核心观点 - 一篇获得NeurIPS最佳论文奖的研究表明,强化学习与人类反馈微调并不能让大语言模型获得超越其基础模型的新能力,它只是提高了在模型已有能力范围内寻找解决方案的搜索效率[4] - 另一项来自Meta的研究从参数更新机制上解释了上述现象,指出RL训练存在一种高度局部化、受模型自身几何结构引导的优化偏差,这限制了其探索新路径的能力[18][23] - 有研究指出,监督微调虽然能扩展模型的能力边界,但会导致灾难性遗忘,而RL训练则能避免此问题,暗示在“学习新能力”和“避免遗忘”之间可能存在权衡[31][34] - 一种名为“On-policy Distillation”的混合方法被提出,可能兼具SFT扩展能力和RL避免遗忘的优点,或代表未来的探索方向[35][36] RLVR对模型能力边界的影响 - 研究通过pass@K评估发现,在K=1时,RL模型表现优于基础模型,但随着K增大,两者表现趋近,并在K较大时被基础模型超越,证明RL并未拓展模型的能力边界[4][7] - 实验结论在各种RL方法、多种评估测试集及不同模型规模上均成立[5] - RL训练后的模型在精度分布上呈现两极分化:在高精度区域非常集中,但在低精度区域表现不如基础模型,且输出精度为零的概率更高[8][9] - 数据显示,存在许多基础模型能解决而RL模型不能解决的题目,但几乎不存在基础模型不能解决而RL模型能解决的题目[11] - 与RL不同,蒸馏学习能够拓展模型的能力,使其学会解决原本无法解决的问题[12] RL训练的参数更新机制与优化偏差 - 研究指出RL训练存在“模型条件优化偏差”,参数更新高度局部化,且在不同运行、数据集和RL方法间保持高度一致[18] - 该偏差受“三重门”机制影响:1) 策略RL施加的单步KL约束,像狗链一样限制每一步更新不远离原始分布[21];2) 模型几何结构决定了KL约束下的更新方向,更新会避开高曲率方向,沿主角度进行[22];3) 低精度表示充当了过滤器,将幅度很小的更新归零,这造成了更新稀疏的表象,实际更新参数并不少[23] - 因此,RL训练本质上是在强化模型预训练先验内的解决方案,而非探索其外的创新路径[14] - 这种机制导致RL训练保持了参数谱几何结构,并避开了主要权重的更新,而SFT训练则会扭曲谱几何并针对主要权重[27] 不同训练方法的权衡与潜在解决方案 - 监督微调能扩展模型能力但会导致灾难性遗忘,而RL训练不能扩展能力但能避免遗忘,两者可能构成一种权衡[31][34] - 一项名为“On-policy Distillation”的方法被提出,它原理上是RL训练,但过程类似于SFT蒸馏,可能兼具扩展能力边界、高效寻找推理路径和避免灾难性遗忘的潜力[35][36][42] - 有研究建议,未来可能需要设计“RL-native, geometry-aware”的算法,例如通过冻结主要权重、更新非主要低幅度权重来适配RL学习的特征[25][28] - 该领域研究尚未定论,有论文提出了看似相反的结论,表明可能需要更细化的能力分类学和更科学的消融实验[16]
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]