自动驾驶之心
搜索文档
「CV顶会王」李弘扬投身具身智能赛道!
自动驾驶之心· 2025-12-15 08:04
公司创业动态 - 香港大学数据科学研究院助理教授、上海人工智能实验室OpenDriveLab研究科学家李弘扬已进入具身智能赛道创业 [3] - 公司围绕UniVLA的研究方向进行机器人Manipulation攻关 目前已形成长程任务的Demo [3] - 公司已组成数十人的研发团队 研究领域涵盖VLA、机器人、无人驾驶和端边计算芯片 [4] - 公司走的同样是「基座模型 + 机器人本体」的全栈自研路线 [10] - 公司愿景是通过提升少样本泛化能力 实现人形机器人在全场景下的规模化落地应用 [10] - 团队即将发布的核心模型已达到国际一流水准 且在技术跟商业化上足够清晰 [11] 创始人学术与技术成就 - 创始人李弘扬的主要研究方向为自动驾驶、具身智能及端到端智能系统应用 [6] - 其主导的《Planning-oriented Autonomous Driving》获得IEEE CVPR 2023最佳论文奖 掀起自动驾驶界「端到端」巨浪 [6] - 提出的UniAD框架将目标检测与跟踪、地图预测、轨迹预测、占据栅格预测、规划整合为同一个基于Transformer的端到端网络框架 在公开数据集nuScenes的所有相关任务上都大幅优于同类型SOTA方法 [6] - 提出的俯视图感知方法BEVFormer曾入选2022年AI论文100强 成为业界视觉检测基准 [7] - 在CVPR、ICCV、ECCV、NeurIPS、CoRL、ICLR、TPAMI、TIP等国际顶尖会议/期刊上发表论文数十篇 多次担任国际顶尖会议领域主席 [7] - 在具身智能领域 其团队构建了超大规模真实机器人操控数据集「AgiBot World」 基于百万真机、千万仿真数据集 覆盖了五大行业场景 [7] - 2025年5月 团队在arXiv平台发表论文《UniVLA: Learning to Act Anywhere with Task-centric Latent Actions》 提出以任务为中心的潜在动作框架 [7] 核心技术框架UniVLA - UniVLA框架通过无监督学习从视频数据中推导出潜在动作表示 支持跨实体和环境的机器人策略学习 实现机器人高效跨场景部署 [7] - 框架特点在于通过两阶段训练解耦任务相关与无关动态 利用DINO特征空间和语言指令增强语义对齐 结合轻量级解码器适配不同机器人硬件 [9] - 相比传统方法 UniVLA显著降低了对标注数据的依赖 仅需少量数据即可在多任务基准测试中达到最优性能 并支持从互联网视频到真实机器人的高效迁移 [10] 行业观点与趋势 - 李弘扬在2025地平线技术生态大会上表示 具身智能一定会体现出Scaling law 目前全球真正算得上做过Scaling law实验的只有一家公司 即Generalist AI(GEN-0模型) [10] - 如何就算法、数据、硬件或Infra建立一套高效率的数据采集系统 在具身智能领域是非常关键的课题 [10] - 近两年 除了有数位自动驾驶大拿创建具身智能公司外 也有多位学界专家选择投身具身智能领域 包括卢策吾、卢宗青、邵林、王鹤、赵明国等知名学者 [11]
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
复旦&上交最新!一篇长达40页的自动驾驶空间检索范式SpatialRetrievalAD
自动驾驶之心· 2025-12-15 08:04
文章核心观点 - 提出一种名为“空间检索增强”的自动驾驶新范式,通过引入离线地理图像(如谷歌地图街景)作为额外输入,以弥补车载传感器在视野受限、遮挡及恶劣天气等复杂场景下的感知局限,从而提升自动驾驶系统的整体性能与鲁棒性 [2][10][56] - 该范式无需额外传感器或人工标注,是一种低成本、即插即用的感知增强方案,通过构建扩展数据集和通用适配器,在多个核心自动驾驶任务上验证了其有效性 [2][11][16] 背景与动机 - 现有自动驾驶系统严重依赖车载传感器进行实时环境感知,但其性能在视野受限、遮挡、黑暗、雨雪雾等极端条件下会显著下降 [2][10] - 人类驾驶员在视觉输入不足时会依赖记忆和场景回忆,研究旨在为自动驾驶系统赋予类似的“回忆”能力,通过空间检索获取更广泛的上下文信息 [10] - 离线地理数据(如谷歌地图或企业自有缓存数据集)具有全球可访问、不受行驶干扰、提供外部视角等优势,是经济高效的空间上下文增强方式 [10][11] 研究方法与框架 - 构建了将地理数据整合到现有自动驾驶数据集的自动化框架,通过谷歌地图API和自车姿态信息实现数据收集与空间对齐 [11] - 基于此框架,扩展了广泛使用的nuScenes数据集,创建了“nuScenes-Geography”数据集,包含地理图像和空间检索API [11][28] - 为系统评估新范式,在五个关键自动驾驶任务上建立了基准:3D目标检测、在线建图、占用预测、端到端规划和生成式世界模型 [3][11] - 设计了一种模型无关的即插即用适配器,可将检索到的地理图像无缝整合到基于鸟瞰图的车载任务模型中 [15][19] - 针对生成式世界模型,提出了沿未来行驶轨迹预检索地理图像的方法,为长时域、全局一致的场景生成提供空间支架 [14][20] - 引入了基于可靠性估计的自适应融合机制,通过评估检索位置距离和图像相似度,动态调整地理特征的贡献权重,以处理缺失或错位的检索数据 [23][26] 实验数据集构建 - nuScenes-Geography数据集通过谷歌地图API,为nuScenes数据集的每个关键帧检索对应的街景图像和卫星地图切片 [28][30] - 采用等矩形全景图表示法存储街景数据,与直接下载每帧裁剪图相比,存储量减少超过70%,实现了存储高效性 [31][34] - 在数据构建过程中,手动识别出1800个地理图像错位案例,用作可靠性估计模块训练的负样本 [35] 实验结果与分析 场景理解任务性能提升 - **在线建图**:融入地理先验后,MapTR模型在训练110轮后,平均精度提升13.4个百分点(从59.3%提升至72.7%)[40][41] - **占用预测**:融入地理先验后,FBOcc模型在静态地形类别的交并比提升2.57个百分点(从55.13%提升至57.7%)[40][41] - **3D目标检测**:融入地理数据后,BEVDet和BEVFormer模型的性能提升微乎其微,符合预期,因为空间检索主要提供背景信息 [41][42] 规划鲁棒性增强 - **端到端规划**:在具有挑战性的夜间场景中,融入地理先验的VAD模型将平均碰撞率从0.55%降至0.48% [43][44] - 地理先验提供了稳定的道路布局信息,有助于在复杂路口、恶劣天气及夜间条件下生成更平滑、更安全的轨迹 [43][49] 生成式世界模型一致性改善 - 融入地理图像后,生成式世界模型UVG的视频弗雷歇距离降低了6.04(从36.10降至29.97),有效防止了场景漂移和幻觉现象 [42][45] - 地理数据作为结构化支架,增强了长时域滚动生成过程中的时间一致性和几何一致性 [45][50] 对不准确检索的鲁棒性 - 消融实验表明,即使50%的地理先验缺失或错位,模型仍能保留大部分性能提升,证明了可靠性估计门控机制的有效性和实际应用鲁棒性 [53] 结论与贡献 - 研究提出了自动驾驶空间检索范式,并开源了数据集构建代码、扩展数据及基准测试,以支持后续研究 [3][16] - 大量实验表明,该范式能够提升在线建图、占用预测、规划安全和生成式世界模型一致性等多个任务的性能,展示了其巨大潜力 [56]
扒了一下今年各家具身公司的量产情况和订单金额......
自动驾驶之心· 2025-12-14 10:03
文章核心观点 - 文章旨在调研并汇总2025年全球具身智能/人形机器人领域的量产订单与交付情况,展示了行业从技术研发迈向规模化商业应用的关键进展 [3][6][8] 全球头部公司订单与量产情况 - **宇树科技**:未透露具体订单量,但年度营收预计超过12亿元人民币 [9] - **智元机器人**:截至12月8日,量产机器人数量累计达5000台,产品应用于娱乐、制造、物流及科研领域 [10] - **优必选机器人**: - 近期拿下广西防城港2.64亿元订单,使用Walker S2机器人 [12] - 4月24日拿下全球首份小批量具身智能人形机器人采购合同,交付工业版Walker S1和商用版Walker C [12] - 9月,Walker S2获得某国内企业2.5亿元订单,刷新全球人形机器人单笔合同纪录 [13] - 10月、11月,Walker S2再获广西1.26亿元、四川自贡1.59亿元、江西九江1.43亿元订单 [13] - 截至11月,Walker系列全年累计规模化订单达13亿元 [14] - 目前工业人形机器人月产能达300台,预期2025年交付量将超过500台 [14] - **特斯拉Optimus**: - 定位为公司未来核心,预计贡献特斯拉80%市值 [16] - 计划2025年12月底完成约5000台Optimus V3试生产并小规模交付 [16] - 2026年Q1计划大规模量产,年产能目标5-8万台,2026年底前产能目标10万台,2027年目标百万台量产 [16] - **智平方**:9月11日与深圳慧智物联达成战略合作,计划未来三年内在惠科全球生产基地累计部署超1000台具身智能机器人 [17] - **星尘智能**:9月2日与上海仙工智能达成人形机器人千台级订单战略合作,采用“核心部件+整机应用”模式,首批场景聚焦工业、制造、仓储、物流 [20][22] - **松延动力**:2025年预计全年订单量突破2500台(高仿生机器人+教育科研机器人),订单金额超1亿元 [23] - **原力无限**:10月与某文旅控股集团签署战略合作协议,项目金额高达2.6亿元人民币 [25] - **众擎机器人**: - 2025年7月完成Pre-A++与A1轮融资,金额近10亿元 [27] - 3年内预计交付2000台,已公开订单包括与多伦科技的2000台具身智能机器人三年框架采购协议 [27] - **乐聚机器人**: - 年内交付节奏从“百台级”迈向“近千台级” [27] - 1月17日完成第100台全尺寸人形机器人交付(北汽越野车),一季度交付近300台(同比翻倍) [27] - 9月25日完成“人形机器人数据训练中心二期”100台“夸父”交付(订单金额8295万元),公司全年交付目标预计为2000台 [27] 行业动态与巨头布局 - **波士顿动力(Atlas)**:现代汽车承诺在其制造和物流业务中部署数万台机器人,包括Atlas人形机器人、Spot四足机器人和Stretch机器人,并将整合其汽车制造能力以助力波士顿动力扩大产量 [4][6]
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 10:03
行业阶段与平台定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在为行业带来价值 [2] 平台发展规划 - 平台计划增加圆桌访谈 实战及工业级课程 咨询等各类输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 主要业务方向 - 业务方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向 [4] 岗位与业务说明 - 岗位主要面向自动驾驶培训合作 包括面向企业和高校研究院所的B端培训 以及面向学生和求职人群的C端培训 [5] - 岗位职责包括课程开发和原创文章创作 [5]
2025年还存活的自动驾驶公司......
自动驾驶之心· 2025-12-14 10:03
行业现状与趋势 - 智能驾驶行业正处于快速发展与整合阶段,L2级别自动驾驶渗透率正在快速提升,L3级别自动驾驶即将落地,L4级别自动驾驶正在寻求规模上的突破 [2] - 行业技术方向持续演进,包括端到端、视觉-语言-动作模型、世界模型、强化学习等前沿领域仍在快速发展 [2] - 行业经历新一轮洗牌与资源整合,部分公司已退出市场,部分公司正进行合并或收购,同时也有新势力公司涌现 [2] 主要市场参与者分类 - **新势力公司**:主要包括蔚来、小鹏、理想、小米、零跑、滴滴、威马、牛创、极氪、阿维塔、岚图、千里科技、极越等 [4] - **一级供应商**:主要包括华为、百度、大疆、中兴、腾讯、上汽零束、鉴智机器人、Momenta、博世中国、麦格纳、佑驾创新等 [6] - **Robotaxi公司**:主要包括百度、小马智行、上海造父智能科技、文远知行、元戎启行、滴滴、Momenta、轻舟智航、驭势科技等 [8] - **Robotruck公司**:主要包括卡尔动力、智加科技、赢彻科技、小马智行、主线科技、斯年智驾、西井科技、飞步科技、牧月科技、挚途科技等 [10] - **无人配送公司**:主要包括美团、九识智能、京东、苏宁、阿里菜鸟、中国邮政、百度Apollo、威盛电子、新石器、白犀牛等 [12] - **传统主机厂**:主要包括上汽、长安、广汽、北汽、一汽、长城、比亚迪、吉利、东风、奇瑞等 [14] - **农用自动驾驶公司**:主要包括丰疆智能、中联重科、中国一拖、悟牛智能、中科原动力、雷沃重工等 [16] - **矿区自动驾驶公司**:主要包括易控智驾、踏歌智行、慧拓智能、路凯智行、伯镭科技、盟识科技、清智科技等 [18] - **环卫自动驾驶公司**:主要包括智行者、酷哇、仙途、高仙机器人、深兰科技、浩睿智能、于万智驾、云创智行等 [20] - **自动泊车公司**:主要包括百度、追势、德赛西威、东软睿驰、禾多科技、纽励科技、恒润科技等 [22] - **高精地图公司**:主要包括百度、高德、四维图新、腾讯、华为、滴滴、京东、美团、宽凳等 [24] - **车路协同公司**:主要包括蘑菇车联、觉非科技、百度、华为、大唐高鸿、华砺智行、阿里、海康等 [24] 核心技术课程内容 - 课程涵盖端到端自动驾驶算法的核心内容,包括任务概述、两段式与一段式算法框架及经典算法 [29] - 课程包含导航信息在量产中的应用,涉及导航信息分类、编码及量产经验分享 [29] - 课程讲解自动驾驶中的强化学习,包括其解决的问题、环境配置、算法框架详解及开闭环训练 [29] - 课程涉及端到端轨迹优化技术,包括基于扩散模型和基于子回顾的优化方法,并结合强化学习进行实战 [29] - 课程包含时空联合规划与轨迹打分、搜索算法、横纵向轨迹平滑,并详解线性二次调节器及其迭代算法,分享量产经验 [30] - 课程提供端到端算法的量产经验分享,涵盖模型优化、场景优化与数据优化的思路 [30] 行业人才需求与薪酬 - 端到端自动驾驶算法工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月50-80K,按14薪计算 [31] - 端到端自动驾驶算法部署工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月40-70K,按14薪计算 [31] - 端到端自动驾驶大模型工程师岗位要求5-10年经验及本科学历,薪酬范围在每月30-60K,按16薪计算 [31] - 自动驾驶端到端规划模型算法工程师岗位对经验要求不限但需硕士学历,薪酬范围在每月35-60K,按14薪计算 [31] - 辅助驾驶产品总监岗位要求5-10年经验及本科学历,薪酬范围在每月40-70K [31]
理想下一步的重点:从数据闭环到训练闭环
自动驾驶之心· 2025-12-14 10:03
理想汽车智能驾驶技术发展路线 - 公司智能驾驶发展经历了四个阶段:规则时代的轻图和无图方案、基于AI的端到端(E2E)与视觉语言模型(VLM)快慢双系统、以及最新的VLA司机大模型 [6] - 在技术演进过程中,导航(Nav)模块是重点突出的部分 [6] 数据闭环的现状与能力 - 公司已建立完整的数据闭环流程:影子模式验证→数据触发回传→云端数据挖掘→自动标注→生成训练集训练模型→模型下发验证性能 [9] - 数据回传过程已能做到一分钟内完成 [10] - 公司目前积累了15亿公里的驾驶数据,并使用200多个触发器(Trigger)来生产15-45秒的片段(Clip)数据 [11] - 端到端量产版本的MPI(平均无干预行驶里程)已达到220公里以上,相比2024年7月底的版本提升了约19倍 [13] 数据闭环的局限与行业新阶段 - 仅靠数据闭环无法解决所有问题,尤其是长尾场景的收敛问题,例如交通管制、烟花燃放、突然变道等 [16] - 行业观点认为,自动驾驶已进入“下半场”,需要从“数据闭环”演进到“训练闭环” [18][21] 训练闭环的核心架构与关键技术 - L4级别训练循环的核心是VLA司机大模型、强化学习(RL)和世界模型(WM)的结合 [23] - 轨迹优化由VLA的扩散模型和基于世界模型的强化学习共同完成 [23] - 强化学习不仅包括RLHF,还扩展至RLVR和RLAIF [23] - 世界模型主要用于场景重建和新视角复原 [23] - 闭环自动驾驶训练的关键技术栈包括:区域级别的仿真、合成数据和强化学习 [24] 仿真与场景重建技术 - 仿真依赖于场景重建技术,包括:视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 公司在重建方面已有两年工作积累,并发表了两篇顶会论文 [28] - 近期技术方案从重建发展到生成,例如Feedforward 3D高斯泼溅(3DGS)技术,无需点云初始化,可直接从视觉输入得到结果 [29] - 在联合重建与生成方面也有一篇顶会论文 [32] 合成数据生成与应用 - 合成数据依赖于多模态生成技术,包括:视频/点云生成和神经渲染 [26] - 公司在生成方面的工作已产出三篇顶会论文 [34] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [36] - 公司在新的训练数据配比上做了大量工作 [38] 训练闭环的挑战与系统能力 - 可交互的智能体(Agent)是构建训练闭环的关键挑战 [40] - 系统能力是增强引擎的关键,包括:世界模型提供仿真环境、3D资产构建多样化场景、仿真智能体(SimAgents)进行交互式行为建模、奖励模型提供准确的反馈泛化能力、以及GPU工程加速推理 [41] 成果总结 - 公司在相关领域已取得成果并获得奖励 [45]
最近前馈GS的工作爆发了,我们做了一份学习路线图......
自动驾驶之心· 2025-12-13 10:04
3DGS技术趋势与行业动态 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,基于前馈式GS算法实现,成为行业关注亮点[2] - 学术界跟进迅速,出现如小米的WorldSplat和清华的DGGT等新工作,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] - 行业普遍共识是采用前馈式GS重建场景,再利用生成技术生成新视角,多家公司正为此开放HC招聘[2] 3DGS技术课程核心内容 - 课程由自动驾驶之心联合工业界算法专家推出,旨在提供从原理到实战的完整3DGS学习路线图[4] - 课程设计耗时两个月,全面覆盖3DGS技术栈,帮助学员吃透点云处理、深度学习理论并掌握实时渲染与代码实战[4] - 讲师Chris来自某Tier1厂商,是算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建实战经验[5] - 课程为离线视频教学,辅以VIP群内答疑和三次线上答疑,开课时间为12月1日,预计两个半月结课[15] 课程详细大纲与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,精讲浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用DriveStudio框架[10] - **第四章:研究方向**:探讨COLMAP扩展、深度估计及Relighting等重要研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程面向人群与学习收获 - 面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,并拥有概率论、线性代数及Python、PyTorch语言基础的学员[17] - 学习收获包括掌握3DGS完善的理论知识及相关技术栈,掌握算法开发框架并能训练开源模型,获得与学术界及工业界同行持续交流的机会,对实习、校招、社招均有助益[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] - 课程提供早鸟优惠,名额仅限30名[5][18]
可能是第一家年销百万的新势力!?
自动驾驶之心· 2025-12-13 10:04
公司业绩表现 - 2024年第三季度,公司共销售新车17.4万辆,同比增长101.77%,环比增长29.63% [3][8] - 2024年第三季度,公司实现净利润1.5亿元,继半年度盈利后再度实现单季盈利 [4][8] - 截至2024年第三季度末,公司在手资金达339.2亿元,并保持正向的经营现金流与自由现金流 [4][8] - 2024年第三季度,公司收入创下新高,达到194.5亿元,同比增长97.3% [11] - 2024年11月15日,公司年度累计销量突破50万辆,提前一个半月完成原定全年目标 [5] 财务与运营指标 - 2024年第三季度,公司单车收入从第二季度的10.6万元提升至11.2万元 [12] - 2024年第三季度,公司毛利率从第二季度的13.6%回升至14.5%,较去年同期的8.2%提升了4.3个百分点 [12] - 2024年第三季度,公司毛利达到28.2亿元,同比增长45%,环比增长248% [12] - 2024年第三季度,公司研发费用和管理费用创下新高,分别为12.1亿元和6.3亿元,较上一季度分别增加1.2亿元和2.2亿元 [14] 销量目标与增长 - 公司创始人提出2025年销量目标为冲击100万辆,较2024年预计的50-60万辆几近翻番 [5] - 2024年8月,公司将2025年全年销量目标从年初的50-60万辆上调至58-65万辆 [18] - 公司第100万台整车于2024年9月25日下线,从第50万辆到第100万辆用时不到一年 [21] - 公司月销量接连突破5万辆、6万辆,并在2024年第四季度首月突破7万辆大关 [3][8] 产品战略与布局 - 公司规划了A、B、C、D四大产品系列,覆盖从低到高的价格区间及轿车、SUV、MPV等车型 [9] - C系列(如C10、C11、C16)是销量主力,在总销量中占比约七成 [12] - B系列首款轿车B01起售价不到9万元,上市次月起月销量便突破万辆 [11] - 2025年,公司将完成A、B、C、D四大产品线的全面布局,计划推出2-3款D系列新品及2款A系列新品 [23] - D系列首款旗舰SUV D19已于2024年10月中旬首秀,A系列首款车型A10将于2024年11月广州车展亮相 [23] - 专为年轻人打造的全球车型Lafa5将于2024年11月27日正式上市 [23] 核心竞争能力 - 公司成功的关键在于“全域自研”的供应链模式、极强的成本控制能力以及“技术普惠”的产品定价理念 [4][8] - 公司平台化水平高,B系列零部件通用率高达88%,规模效应能高效反哺财务数据 [12] - 公司经营理念务实,旨在成为年销数百万级的世界级电动车企,类似于燃油车时代的大众、丰田 [8] - 公司产品遵循“好而不贵”的一贯风格,即便是高端D系列也延续“产品很豪华,价格不豪华”的理念,以成本为核心定价 [26] - 公司在用户洞察和产品定义上更加成熟,清楚用户的刚需、补充性需求及个性化需求 [27]
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架,旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于,通过引入大语言模型作为“评判专家”,将强化学习的应用范围从传统的、可验证的轨迹规划任务,成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务,实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明,该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能,证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**:为应对开放式知识学习的奖励设计挑战,研究构建了带显式思维链的驾驶知识数据,并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调,为模型提供冷启动,使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**:在强化学习微调阶段,引入Qwen3-LLM作为“评判专家”,由其判断模型生成答案与参考答案是否一致,并给予0或1的奖励[12]。同时,计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励,形成“专家判断+语义相似度”的双重奖励机制,以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**:框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划,设计了基于轨迹误差的奖励函数,对近距离时间点的误差要求更严格,对远距离误差更宽容,以平衡安全性与规划精度[13]。在训练中,为批次内不同类型的任务分别计算奖励,最后综合用于更新模型参数,促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**:在LingoQA和NuScenes数据集上的实验表明,仅使用轨迹规划任务时,强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练,强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后,强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为:平均L2误差从监督微调的0.44米降至0.40米,平均碰撞率从0.18%降至0.11%,LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**:在NuScenes开环评测中,OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米,平均碰撞率为0.11%,在碰撞控制方面表现出色,保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD在轨迹误差和碰撞率控制上均更优,突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**:在LingoQA驾驶知识评测中,OpenREAD取得了当前最优的表现,其Lingo-Judge准确率达到68.2%,超过了其他对比模型如ReCogDrive(67.8%)和WiseAD(60.4%)[22]