自动驾驶之心
搜索文档
复旦&上交最新!一篇长达40页的自动驾驶空间检索范式SpatialRetrievalAD
自动驾驶之心· 2025-12-15 08:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 现有自动驾驶系统非常依赖车载传感器进行实时精确的环境感知。然而,这种模式受行驶过程中的感知范围限制,在视野受限、遮挡或黑暗、降雨等极端条件下常出 现性能失效。相比之下,人类驾驶员即使在能见度不佳的情况下,仍能回忆起道路结构。为了让模型具备这种"回忆"能力,针对这个特点, 复旦可信具身智能和上交 等合作 ,将离线检索的地理图像作为额外输入引入系统。这些图像可从离线缓存(如谷歌地图或已存储的自动驾驶数据集)中轻松获取,无需额外传感器,是现有自 动驾驶任务的即插即用型扩展方案。 在实验中,首先通过谷歌地图API检索地理图像,扩展了nuScenes数据集,并将新数据与自车轨迹对齐。并在五个核心自动驾驶任务上建立了基准:目标检测、在线建 图、占用预测、端到端规划和生成式世界模型。其中在线建图mAP提升13.4%,占用预测静态类mIoU +2.57%,夜间规划碰撞率从0.55%降至0.48%,为复杂场景自动驾 驶提供低成本、高鲁棒的感知增强方案。大量实验表明,该扩展模态 ...
扒了一下今年各家具身公司的量产情况和订单金额......
自动驾驶之心· 2025-12-14 10:03
文章核心观点 - 文章旨在调研并汇总2025年全球具身智能/人形机器人领域的量产订单与交付情况,展示了行业从技术研发迈向规模化商业应用的关键进展 [3][6][8] 全球头部公司订单与量产情况 - **宇树科技**:未透露具体订单量,但年度营收预计超过12亿元人民币 [9] - **智元机器人**:截至12月8日,量产机器人数量累计达5000台,产品应用于娱乐、制造、物流及科研领域 [10] - **优必选机器人**: - 近期拿下广西防城港2.64亿元订单,使用Walker S2机器人 [12] - 4月24日拿下全球首份小批量具身智能人形机器人采购合同,交付工业版Walker S1和商用版Walker C [12] - 9月,Walker S2获得某国内企业2.5亿元订单,刷新全球人形机器人单笔合同纪录 [13] - 10月、11月,Walker S2再获广西1.26亿元、四川自贡1.59亿元、江西九江1.43亿元订单 [13] - 截至11月,Walker系列全年累计规模化订单达13亿元 [14] - 目前工业人形机器人月产能达300台,预期2025年交付量将超过500台 [14] - **特斯拉Optimus**: - 定位为公司未来核心,预计贡献特斯拉80%市值 [16] - 计划2025年12月底完成约5000台Optimus V3试生产并小规模交付 [16] - 2026年Q1计划大规模量产,年产能目标5-8万台,2026年底前产能目标10万台,2027年目标百万台量产 [16] - **智平方**:9月11日与深圳慧智物联达成战略合作,计划未来三年内在惠科全球生产基地累计部署超1000台具身智能机器人 [17] - **星尘智能**:9月2日与上海仙工智能达成人形机器人千台级订单战略合作,采用“核心部件+整机应用”模式,首批场景聚焦工业、制造、仓储、物流 [20][22] - **松延动力**:2025年预计全年订单量突破2500台(高仿生机器人+教育科研机器人),订单金额超1亿元 [23] - **原力无限**:10月与某文旅控股集团签署战略合作协议,项目金额高达2.6亿元人民币 [25] - **众擎机器人**: - 2025年7月完成Pre-A++与A1轮融资,金额近10亿元 [27] - 3年内预计交付2000台,已公开订单包括与多伦科技的2000台具身智能机器人三年框架采购协议 [27] - **乐聚机器人**: - 年内交付节奏从“百台级”迈向“近千台级” [27] - 1月17日完成第100台全尺寸人形机器人交付(北汽越野车),一季度交付近300台(同比翻倍) [27] - 9月25日完成“人形机器人数据训练中心二期”100台“夸父”交付(订单金额8295万元),公司全年交付目标预计为2000台 [27] 行业动态与巨头布局 - **波士顿动力(Atlas)**:现代汽车承诺在其制造和物流业务中部署数万台机器人,包括Atlas人形机器人、Spot四足机器人和Stretch机器人,并将整合其汽车制造能力以助力波士顿动力扩大产量 [4][6]
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 10:03
行业阶段与平台定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在为行业带来价值 [2] 平台发展规划 - 平台计划增加圆桌访谈 实战及工业级课程 咨询等各类输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 主要业务方向 - 业务方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向 [4] 岗位与业务说明 - 岗位主要面向自动驾驶培训合作 包括面向企业和高校研究院所的B端培训 以及面向学生和求职人群的C端培训 [5] - 岗位职责包括课程开发和原创文章创作 [5]
2025年还存活的自动驾驶公司......
自动驾驶之心· 2025-12-14 10:03
行业现状与趋势 - 智能驾驶行业正处于快速发展与整合阶段,L2级别自动驾驶渗透率正在快速提升,L3级别自动驾驶即将落地,L4级别自动驾驶正在寻求规模上的突破 [2] - 行业技术方向持续演进,包括端到端、视觉-语言-动作模型、世界模型、强化学习等前沿领域仍在快速发展 [2] - 行业经历新一轮洗牌与资源整合,部分公司已退出市场,部分公司正进行合并或收购,同时也有新势力公司涌现 [2] 主要市场参与者分类 - **新势力公司**:主要包括蔚来、小鹏、理想、小米、零跑、滴滴、威马、牛创、极氪、阿维塔、岚图、千里科技、极越等 [4] - **一级供应商**:主要包括华为、百度、大疆、中兴、腾讯、上汽零束、鉴智机器人、Momenta、博世中国、麦格纳、佑驾创新等 [6] - **Robotaxi公司**:主要包括百度、小马智行、上海造父智能科技、文远知行、元戎启行、滴滴、Momenta、轻舟智航、驭势科技等 [8] - **Robotruck公司**:主要包括卡尔动力、智加科技、赢彻科技、小马智行、主线科技、斯年智驾、西井科技、飞步科技、牧月科技、挚途科技等 [10] - **无人配送公司**:主要包括美团、九识智能、京东、苏宁、阿里菜鸟、中国邮政、百度Apollo、威盛电子、新石器、白犀牛等 [12] - **传统主机厂**:主要包括上汽、长安、广汽、北汽、一汽、长城、比亚迪、吉利、东风、奇瑞等 [14] - **农用自动驾驶公司**:主要包括丰疆智能、中联重科、中国一拖、悟牛智能、中科原动力、雷沃重工等 [16] - **矿区自动驾驶公司**:主要包括易控智驾、踏歌智行、慧拓智能、路凯智行、伯镭科技、盟识科技、清智科技等 [18] - **环卫自动驾驶公司**:主要包括智行者、酷哇、仙途、高仙机器人、深兰科技、浩睿智能、于万智驾、云创智行等 [20] - **自动泊车公司**:主要包括百度、追势、德赛西威、东软睿驰、禾多科技、纽励科技、恒润科技等 [22] - **高精地图公司**:主要包括百度、高德、四维图新、腾讯、华为、滴滴、京东、美团、宽凳等 [24] - **车路协同公司**:主要包括蘑菇车联、觉非科技、百度、华为、大唐高鸿、华砺智行、阿里、海康等 [24] 核心技术课程内容 - 课程涵盖端到端自动驾驶算法的核心内容,包括任务概述、两段式与一段式算法框架及经典算法 [29] - 课程包含导航信息在量产中的应用,涉及导航信息分类、编码及量产经验分享 [29] - 课程讲解自动驾驶中的强化学习,包括其解决的问题、环境配置、算法框架详解及开闭环训练 [29] - 课程涉及端到端轨迹优化技术,包括基于扩散模型和基于子回顾的优化方法,并结合强化学习进行实战 [29] - 课程包含时空联合规划与轨迹打分、搜索算法、横纵向轨迹平滑,并详解线性二次调节器及其迭代算法,分享量产经验 [30] - 课程提供端到端算法的量产经验分享,涵盖模型优化、场景优化与数据优化的思路 [30] 行业人才需求与薪酬 - 端到端自动驾驶算法工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月50-80K,按14薪计算 [31] - 端到端自动驾驶算法部署工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月40-70K,按14薪计算 [31] - 端到端自动驾驶大模型工程师岗位要求5-10年经验及本科学历,薪酬范围在每月30-60K,按16薪计算 [31] - 自动驾驶端到端规划模型算法工程师岗位对经验要求不限但需硕士学历,薪酬范围在每月35-60K,按14薪计算 [31] - 辅助驾驶产品总监岗位要求5-10年经验及本科学历,薪酬范围在每月40-70K [31]
理想下一步的重点:从数据闭环到训练闭环
自动驾驶之心· 2025-12-14 10:03
理想汽车智能驾驶技术发展路线 - 公司智能驾驶发展经历了四个阶段:规则时代的轻图和无图方案、基于AI的端到端(E2E)与视觉语言模型(VLM)快慢双系统、以及最新的VLA司机大模型 [6] - 在技术演进过程中,导航(Nav)模块是重点突出的部分 [6] 数据闭环的现状与能力 - 公司已建立完整的数据闭环流程:影子模式验证→数据触发回传→云端数据挖掘→自动标注→生成训练集训练模型→模型下发验证性能 [9] - 数据回传过程已能做到一分钟内完成 [10] - 公司目前积累了15亿公里的驾驶数据,并使用200多个触发器(Trigger)来生产15-45秒的片段(Clip)数据 [11] - 端到端量产版本的MPI(平均无干预行驶里程)已达到220公里以上,相比2024年7月底的版本提升了约19倍 [13] 数据闭环的局限与行业新阶段 - 仅靠数据闭环无法解决所有问题,尤其是长尾场景的收敛问题,例如交通管制、烟花燃放、突然变道等 [16] - 行业观点认为,自动驾驶已进入“下半场”,需要从“数据闭环”演进到“训练闭环” [18][21] 训练闭环的核心架构与关键技术 - L4级别训练循环的核心是VLA司机大模型、强化学习(RL)和世界模型(WM)的结合 [23] - 轨迹优化由VLA的扩散模型和基于世界模型的强化学习共同完成 [23] - 强化学习不仅包括RLHF,还扩展至RLVR和RLAIF [23] - 世界模型主要用于场景重建和新视角复原 [23] - 闭环自动驾驶训练的关键技术栈包括:区域级别的仿真、合成数据和强化学习 [24] 仿真与场景重建技术 - 仿真依赖于场景重建技术,包括:视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 公司在重建方面已有两年工作积累,并发表了两篇顶会论文 [28] - 近期技术方案从重建发展到生成,例如Feedforward 3D高斯泼溅(3DGS)技术,无需点云初始化,可直接从视觉输入得到结果 [29] - 在联合重建与生成方面也有一篇顶会论文 [32] 合成数据生成与应用 - 合成数据依赖于多模态生成技术,包括:视频/点云生成和神经渲染 [26] - 公司在生成方面的工作已产出三篇顶会论文 [34] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [36] - 公司在新的训练数据配比上做了大量工作 [38] 训练闭环的挑战与系统能力 - 可交互的智能体(Agent)是构建训练闭环的关键挑战 [40] - 系统能力是增强引擎的关键,包括:世界模型提供仿真环境、3D资产构建多样化场景、仿真智能体(SimAgents)进行交互式行为建模、奖励模型提供准确的反馈泛化能力、以及GPU工程加速推理 [41] 成果总结 - 公司在相关领域已取得成果并获得奖励 [45]
最近前馈GS的工作爆发了,我们做了一份学习路线图......
自动驾驶之心· 2025-12-13 10:04
3DGS技术趋势与行业动态 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,基于前馈式GS算法实现,成为行业关注亮点[2] - 学术界跟进迅速,出现如小米的WorldSplat和清华的DGGT等新工作,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] - 行业普遍共识是采用前馈式GS重建场景,再利用生成技术生成新视角,多家公司正为此开放HC招聘[2] 3DGS技术课程核心内容 - 课程由自动驾驶之心联合工业界算法专家推出,旨在提供从原理到实战的完整3DGS学习路线图[4] - 课程设计耗时两个月,全面覆盖3DGS技术栈,帮助学员吃透点云处理、深度学习理论并掌握实时渲染与代码实战[4] - 讲师Chris来自某Tier1厂商,是算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建实战经验[5] - 课程为离线视频教学,辅以VIP群内答疑和三次线上答疑,开课时间为12月1日,预计两个半月结课[15] 课程详细大纲与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,精讲浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用DriveStudio框架[10] - **第四章:研究方向**:探讨COLMAP扩展、深度估计及Relighting等重要研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程面向人群与学习收获 - 面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,并拥有概率论、线性代数及Python、PyTorch语言基础的学员[17] - 学习收获包括掌握3DGS完善的理论知识及相关技术栈,掌握算法开发框架并能训练开源模型,获得与学术界及工业界同行持续交流的机会,对实习、校招、社招均有助益[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] - 课程提供早鸟优惠,名额仅限30名[5][18]
可能是第一家年销百万的新势力!?
自动驾驶之心· 2025-12-13 10:04
公司业绩表现 - 2024年第三季度,公司共销售新车17.4万辆,同比增长101.77%,环比增长29.63% [3][8] - 2024年第三季度,公司实现净利润1.5亿元,继半年度盈利后再度实现单季盈利 [4][8] - 截至2024年第三季度末,公司在手资金达339.2亿元,并保持正向的经营现金流与自由现金流 [4][8] - 2024年第三季度,公司收入创下新高,达到194.5亿元,同比增长97.3% [11] - 2024年11月15日,公司年度累计销量突破50万辆,提前一个半月完成原定全年目标 [5] 财务与运营指标 - 2024年第三季度,公司单车收入从第二季度的10.6万元提升至11.2万元 [12] - 2024年第三季度,公司毛利率从第二季度的13.6%回升至14.5%,较去年同期的8.2%提升了4.3个百分点 [12] - 2024年第三季度,公司毛利达到28.2亿元,同比增长45%,环比增长248% [12] - 2024年第三季度,公司研发费用和管理费用创下新高,分别为12.1亿元和6.3亿元,较上一季度分别增加1.2亿元和2.2亿元 [14] 销量目标与增长 - 公司创始人提出2025年销量目标为冲击100万辆,较2024年预计的50-60万辆几近翻番 [5] - 2024年8月,公司将2025年全年销量目标从年初的50-60万辆上调至58-65万辆 [18] - 公司第100万台整车于2024年9月25日下线,从第50万辆到第100万辆用时不到一年 [21] - 公司月销量接连突破5万辆、6万辆,并在2024年第四季度首月突破7万辆大关 [3][8] 产品战略与布局 - 公司规划了A、B、C、D四大产品系列,覆盖从低到高的价格区间及轿车、SUV、MPV等车型 [9] - C系列(如C10、C11、C16)是销量主力,在总销量中占比约七成 [12] - B系列首款轿车B01起售价不到9万元,上市次月起月销量便突破万辆 [11] - 2025年,公司将完成A、B、C、D四大产品线的全面布局,计划推出2-3款D系列新品及2款A系列新品 [23] - D系列首款旗舰SUV D19已于2024年10月中旬首秀,A系列首款车型A10将于2024年11月广州车展亮相 [23] - 专为年轻人打造的全球车型Lafa5将于2024年11月27日正式上市 [23] 核心竞争能力 - 公司成功的关键在于“全域自研”的供应链模式、极强的成本控制能力以及“技术普惠”的产品定价理念 [4][8] - 公司平台化水平高,B系列零部件通用率高达88%,规模效应能高效反哺财务数据 [12] - 公司经营理念务实,旨在成为年销数百万级的世界级电动车企,类似于燃油车时代的大众、丰田 [8] - 公司产品遵循“好而不贵”的一贯风格,即便是高端D系列也延续“产品很豪华,价格不豪华”的理念,以成本为核心定价 [26] - 公司在用户洞察和产品定义上更加成熟,清楚用户的刚需、补充性需求及个性化需求 [27]
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架,旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于,通过引入大语言模型作为“评判专家”,将强化学习的应用范围从传统的、可验证的轨迹规划任务,成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务,实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明,该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能,证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**:为应对开放式知识学习的奖励设计挑战,研究构建了带显式思维链的驾驶知识数据,并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调,为模型提供冷启动,使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**:在强化学习微调阶段,引入Qwen3-LLM作为“评判专家”,由其判断模型生成答案与参考答案是否一致,并给予0或1的奖励[12]。同时,计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励,形成“专家判断+语义相似度”的双重奖励机制,以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**:框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划,设计了基于轨迹误差的奖励函数,对近距离时间点的误差要求更严格,对远距离误差更宽容,以平衡安全性与规划精度[13]。在训练中,为批次内不同类型的任务分别计算奖励,最后综合用于更新模型参数,促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**:在LingoQA和NuScenes数据集上的实验表明,仅使用轨迹规划任务时,强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练,强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后,强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为:平均L2误差从监督微调的0.44米降至0.40米,平均碰撞率从0.18%降至0.11%,LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**:在NuScenes开环评测中,OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米,平均碰撞率为0.11%,在碰撞控制方面表现出色,保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD在轨迹误差和碰撞率控制上均更优,突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**:在LingoQA驾驶知识评测中,OpenREAD取得了当前最优的表现,其Lingo-Judge准确率达到68.2%,超过了其他对比模型如ReCogDrive(67.8%)和WiseAD(60.4%)[22]
深扒PI*0.6迭代式强化学习来源:VLA+在线RL实现具身进化
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够使机器人通过自我探索实现能力进化,超越单纯模仿学习的局限 [3][8] - 星动纪元提出的iRe-VLA方法通过“分而治之,动静结合”的两阶段循环迭代流程,率先突破了VLA模型应用强化学习的困境,其工作被Physical Intelligence的π*0.6研究所引用,代表了该方向的前沿进展 [3][16][17][22] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括训练稳定性高、能有效学习新任务并提升泛化能力,同时通过合理的算力分配兼顾了经济性与实用性 [44][46][48][57][63] 一、VLA+RL的重要性与难点 - **重要性**:仅靠模仿学习无法应对未见情况或数据不完美,机器人难以达到鲁棒、持久工作;在线强化学习允许智能体通过试错发现更优解,是实现能力突破的关键 [8] - **应用难点**: - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难 [21] - **模型稳定性**:直接对数十亿参数的VLA模型进行在线强化学习易导致灾难性遗忘或训练崩溃 [21] - **算力负担**:对大规模模型进行全量梯度更新超出本地机器人控制器的算力极限 [21] 二、行业解决方案与iRe-VLA的创新 - **行业解决方案类型**: - **外挂式干预**:如V-GPS、DSRL,通过外部价值函数或噪声引导冻结的VLA,但模型本身未发生质变 [22] - **暴力美学**:如VLAC,直接用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [22] - **探索到内化的循环**:以iRe-VLA为代表,利用监督微化将强化学习探索出的高价值行为内化为模型的原生能力 [15][22] - **iRe-VLA模型架构**:模型由负责理解与决策的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术提高微调效率 [19][20] - **核心两阶段循环流程**: - **第一阶段(在线强化学习-探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [25][29][31] - **第二阶段(监督学习-内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合了新的成功轨迹与原始专家数据,此阶段通常在云端服务器进行,以将新技能固化并防止遗忘旧技能 [32][37][39] 三、实验结果与分析 - **训练稳定性**:直接使用PPO微调VLA会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数策略对稳定训练至关重要 [46] - **仿真环境性能**: - 在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如将Button-Press-new任务成功率从56%提升至100%,在未见的10个任务上成功率从51%提升至80% [48][50] - 在Franka Kitchen环境中,iRe-VLA同样表现优异,例如将Slide-door-open任务成功率从86%提升至99%,将Left-door-open任务成功率从43%提升至83% [50] - **真实世界性能**: - 在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠专家数据微调的模型初始成功率约为35%,经过iRe-VLA在线学习后,抓取成功率提升至80% [54][57] - 模型展现出泛化能力,抓取完全未参与训练的第三类物体时,成功率也从37%提升至61% [57] - **消融实验**:证明第二阶段解冻VLM主干是必要的,否则模型性能提升会遇到瓶颈,解冻能利用大模型的深层特征表示能力来掌握复杂技能并提升泛化性 [56][58] 四、结论与意义 - **方法优势**: - **稳定性**:解决了大模型直接进行强化学习容易训练崩溃的问题 [63] - **经济性**:巧妙分配算力,本地进行轻量级探索,云端负责重量级消化,符合实际部署场景 [63] - **持续学习**:使机器人能在不遗忘旧技能的前提下,通过自我探索不断掌握新物体和新任务的操作技能 [63] - **行业前景**:iRe-VLA与π*0.6等研究揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定可扩展RL算法等 [62]
基于Qwen3-VL的自动驾驶场景实测......
自动驾驶之心· 2025-12-12 15:35
文章核心观点 - 阿里通义最新的Qwen3-VL多模态大模型在自动驾驶场景的实测中表现卓越,展现出强大的通用视觉语言基础能力,能够在未经专门自动驾驶指令微调的情况下,对复杂交通场景做出合理、连贯且带有安全意识的判断,这为通用视觉语言模型在垂直领域落地提供了更多可能性 [2][82] 场景理解和空间推理 - 模型能够准确描述图片中的场景,包括天气状况、道路类型以及是否存在行人或车辆等基础感知任务 [7][8][9][10][14][16][17] - 模型具备深度的空间推理能力,能够判断距离自车最近的车辆、前方车辆的移动状态、旁边车辆的变道意图、前方车辆的数量与位置、自车所在车道以及车道线数量 [20][21][24] - 模型能够识别交通信号灯及其颜色 [25] 行为决策和因果推理 - 模型能够基于当前情况,为自车提供加速、减速或保持速度的行为决策建议 [28] - 模型能够识别图像中最大的潜在危险 [29] - 模型能够准确识别并解释多个交通标志(如黄色弯道警告标志、绿色ETC指示标志、F200里程牌),并说明相应的应对措施,强调安全驾驶原则 [30][31][32][33] - 模型能够判断在特定场景下是否应该变道并解释原因 [35] - 模型能够根据交通参与者的动态状态、距离和潜在风险,对其危险程度进行从高到低的排序 [37][39][40][41][42] - 模型能够解释旁边车辆“闪灯”的现象,指出其实际是夜间正常开启的大灯,并分析了可能的误解来源 [43][44][45][46] - 模型能够针对安全超车提供详细指导,但在实测的特定夜间场景中,基于对向来车、能见度低、道路条件等因素,强烈不建议尝试超车 [47][48][49] 时序理解与动态变化 - 模型能够分析多帧图像序列,判断前方车辆的相对速度是在增加还是减少,并结合交通场景(如出现拥堵排队)进行逻辑推断 [51][52][53][54][55][56] - 模型能够解释交通流从畅通到拥堵的演变过程,阐述其典型阶段,并分析最初可能引发拥堵的局部扰动事件(如前方车辆突发减速、道路瓶颈、外部干扰) [57][58][59][60] - 基于对拥堵场景的分析,模型明确指出在车辆紧密排队、道路条件禁止的情况下,超车极不安全,并列举了核心风险点 [61][62][63][64][65][66] - 在动态场景中,模型能判断哪个交通参与者的行为最危险 [69] - 模型能够模拟复杂突发事件的演变过程,例如旁边停靠车辆突然爆胎后,在隧道场景中可能引发的一系列连锁反应 [71][72][73][74][75] 测试亮点与总结 - Qwen3-VL展现了精准的场景理解、深度的空间推理、动态行为预测、突出的安全意识以及多帧时序理解等多项能力 [81] - 该模型的表现显示出,未来基于通用大模型的自动驾驶系统可能通过“常识推理+多模态理解”的方式,实现更高效、泛化和可信的驾驶决策,减少对海量场景数据反复打磨的依赖 [82]