Workflow
生成式智驾
icon
搜索文档
智驾的2025:辞旧迎新的一年
自动驾驶之心· 2026-01-04 09:04
2025年自动驾驶行业核心发展脉络 - 2025年是自动驾驶行业承上启下、辞旧迎新的一年,主要围绕“向下普及”和“向上挑战”两条主线展开 [4] - 传统车企如比亚迪、吉利、奇瑞扮演向下普及角色,将高速NOA功能下放到10万+车型,并计划在2026年将城市NOA功能下放到10万+车型 [4] - 新势力及头部智驾供应商负责向上挑战技术上限,秉持一年一代新技术的做法,在端到端之后继续探索新技术 [4] 技术范式演进:从端到端到世界模型 - 端到端技术解决了标准道路场景“好开”的问题,但对罕见高风险Corner Case解决能力有限 [5] - 世界模型是智驾技术从“被动反应”走向“主动思考”的关键分水岭,意味着第三次技术范式演进:从1.0规则式、2.0端到端到3.0生成式智驾 [5] - 2025年,前沿技术辞旧迎新,端到端大规模普及,同时世界模型、VLA实现了从0到1的量产上车 [5] - 小鹏、小米等公司从研究VLA转向世界模型研究,世界模型的热度也延伸至具身智能领域 [5] 世界模型的竞争格局与量产进程 - 世界模型的发展遵循从0到1、再从1到10的量产规律 [6] - 2025年,蔚来在国内首发世界模型量产上车,完成了从0到1最艰难的阶段 [6] - 进入2026年,世界模型将迎来从1到10的性能爆发增长阶段,国内目前蔚来走在从1到10阶段,更多玩家仍在从0到1阶段 [6] - 早期布局世界模型的代表公司包括蔚来、特斯拉、华为,其中蔚来在2024年业内聚焦端到端时已发布世界模型,宣布从“感知驱动”转入“认知驱动” [5] 数据闭环成为研发核心 - 2025年智驾开启“炼丹模式”,数据闭环第一次成为核心中的核心 [6] - 过去几年许多公司的“数据飞轮”更多是营销作用,对云端算力、数据及人才投入不足 [6] - 2025年许多玩家在数据基建上疯狂“补课”,数据闭环及强化学习人才抢手,云端算力成本成为研发投入大头 [6] - 有前瞻性布局的玩家如蔚来已享受到数据基建红利,其较早投入云端数据闭环,并在车端4颗芯片中专设一颗用于数据收集、标注和训练,为其首发世界模型奠定基础 [7] 软硬一体化趋势与自研芯片 - 2025年是软硬一体的大年,蔚来和小鹏实现自研芯片上车,头部智驾供应商地平线、Momenta也走向软硬一体 [7] - 自研芯片不仅为降低成本,更因智驾进入模型时代,软硬深度协同重要性提高,需针对自身算法架构量体裁衣以最大化算力利用率 [7] - 自研芯片可把控芯片量产节奏,避免因供应商交付延迟影响算法上车及新车上市 [7] - 自研芯片存在“外包式自研”与“真自研”之分,蔚来投入大几百人技术团队进行真自研,设计芯片架构,实现深度软硬协同 [8] - 蔚来推出的“神玑NX9031”智驾芯片、“SkyOS·天枢”全域操作系统及“天行智能全主动底盘”为行业提供了明确技术方向 [8] L3牌照发放与行业下半场竞争 - 2025年临近年底L3牌照发放,标志着自动驾驶从上半场(L2+量产)转向下半场(L3、L4)竞争 [8] - 虽然首批L3牌照被部分传统车企申请到,但其L2+能力不足且使用供应商方案,形式大于本质 [9] - 未来真正具备拿到下半场门票的是新势力、华为等挑战前沿技术上限的玩家 [9] - 下半场门票的核心是模型能力,尤其是具备世界模型能力的玩家,如已实现世界模型量产上车的蔚来 [9] 技术价值与未来公司形态 - 智驾技术的终极价值在于解放驾驶者精力和减少交通事故,当前阶段将“减少事故”置于首位 [9] - 智驾进入世界模型阶段,将与全球最前沿的生成式AI技术并驾齐驱 [9] - 在世界模型竞赛中领先的企业,如蔚来,未来将不仅是一家汽车公司,而是一家基于世界模型的AI+硬件+能源生态公司 [10] - 智驾的加速普及由端到端、VLA、世界模型等AI技术突破驱动,也得益于华为、地平线等核心供应商技术的成熟 [9]
王晓刚:物理世界模型用于驾驶辅助训练很重要
新浪财经· 2025-04-24 17:04
上海车展与行业趋势 - 上海车展于4月23日开幕 主题为"拥抱创新 共赢未来" 涵盖传统燃油车、新能源车、智能驾驶和供应链技术等领域 高阶智驾、AI大模型和多模态感知等前沿技术加速落地 [1] 供应链成本控制策略 - 保证产品品质和安全性是第一位 通过扩大智驾市场合作量产车辆分摊智能驾驶系统成本 [3] - 行业逐渐形成硬件配置共识 车厂注重传感器型号平台化 减少对特定车型的重复开发和适配工作 [3][4] 技术突破方向 - 生成式智驾是未来重要趋势 利用世界模型重建物理场景 通过仿真环境复现问题场景并生成大量危险场景数据 解决端到端模型的数据局限性和不确定性问题 [5][6] - 多模态大模型改变智能座舱交互形态 具备深度思考能力 支持多轮多人对话和观点综合 打破传统一对一交互模式 [6][10] 数据有效性分析 - 99%的用户真实数据对训练模型没有帮助 因为90%的驾驶数据是匀速直线行驶 缺乏信息增量 只有踩刹车、避让或拐弯等场景的信号才有效 [7] - 复杂场景中80%的驾驶行为可能停止 仅少数高水平驾驶者能顺利通过 这些是高质量数据 类似GPT等大模型也需筛选互联网数据 删除90%以上低质量数据 [7] 模拟数据应用 - 模拟仿真解决驾驶行为生成问题 通过强化学习改进模型 但困难场景仍需寻找 类似DeepSeek面临难问题稀缺的挑战 [8] - 模拟数据需保持硬件系统时空一致性 例如11个摄像头生成的视频轨迹必须一致 避免训练问题 并可兼容设备故障 [8] 智能座舱产品进展 - 多模态识别功能已在某主机厂实现 更多新功能在上海车展展示 正在寻找量产机会 [9] - New Member产品支持多对多、多轮多人对话 能识别对话者身份并参与讨论 总结观点 实现根本性交互变革 [10] - 主动交互可应对长途驾驶犯困问题 如播放音乐或说话 但更需与驾驶结合确保安全 避免长时间聊天 [10][11] 行业变革节点 - 自动驾驶时代到来将根本改变座舱状态 解放人员自由度 [12] - New Member类聊天机器人可与手机等设备打通 实现无处不在的交互 [12] 软硬件开发生态 - 软硬一体可降低成本 但通用性更好的软件生态是关键 如英伟达GPU的强软件生态 [13] - 芯片厂商如英伟达、高通、MTK和英特尔均强调生态建设 软硬结合是趋势 但最优解仅在成本有优势 不影响纯软件开发公司 [13]
商汤绝影打造智能驾驶新路标——生成式智驾R-UniAD,让安全更有确定性,超越人类驾驶极限
观察者网· 2025-04-24 09:18
文章核心观点 - 商汤绝影发布了生成式智能驾驶技术方案R-UniAD,通过引入强化学习与世界模型,构建VLAR技术架构,旨在解决端到端智能驾驶在数据、安全与性能方面的瓶颈,提升驾驶安全确定性并超越人类驾驶极限 [2][6][9][16] 技术架构与方案 - R-UniAD是“多阶段强化学习”端到端技术方案,包含模仿学习冷启动、与世界模型协同的强化学习训练、以及高效蒸馏至车端部署三个阶段 [9] - 公司构建了集“视觉-语言-行动-强化学习”于一体的VLAR技术架构,作为R-UniAD第二阶段的核心 [6][9] - 该架构依托云端超100万案例和1024种场景类型构建虚拟测试场景,使实采Corner Case数据需求降低2个量级 [9] - 通过强化学习训练的模型,相较于人类驾驶员的碰撞率降低1个量级 [9] 世界模型“绝影开悟2.0” - “绝影开悟”世界模型已升级至2.0版本,进化为近实时在线交互的4D世界模型,具备“4D空间自由交互”能力 [17] - 该模型具备三大核心能力:面向量产的数据生成、复杂场景自由复现、以及近实时交互 [19][20] - 在数据生成方面,可从100多个维度组合生成万千场景(如Cut-in场景),并能通过提示词一键生成极端风险场景(如车祸) [19] - 在场景复现方面,可任意修改调整场景要素,如替换车辆、改变道路布局与车速等 [19] - 其近实时交互能力比行业SOTA提升5倍,感知结果接近真实精标数据98% [20] 技术优势与效果 - 针对“施工占道刹停”等复杂场景,R-UniAD基于世界模型进行4D仿真复现,流程耗时从传统方案数天缩短至几个小时,场景一致性达到95%,相比单一3DGS技术提高1.5倍 [11] - 在仿真环境中,通过设置Reward计算维度(如加速度、是否碰撞等)进行数千次强化学习训练,使模型能找到最优驾驶策略,实现预判与丝滑绕行 [11][12] - 经过泛化训练后,模型对类似前方障碍物场景的交互能力显著提升 [13] - 该技术方案让端到端模型能够比人类“看更多”、“学更快”、“开更好” [16] 商业化与量产进展 - 商汤绝影辅助驾驶方案目前已合作4家车企,上车7款车型 [1][21] - 2025年3月底,公司与广汽联合打造的行业首批基于地平线征程6M的辅助驾驶方案已量产上市 [21] - 2025年,公司将继续推进基于地平线征程6的方案在奇瑞等车企量产落地,基于英伟达DRIVE AGX Thor平台的端到端量产方案计划于第四季度在东风汽车交付 [1][21] - 公司基于地平线征程6的量产方案获得了中汽研《CATARC标志认证实施规则–“征程之星”领航辅助驾驶认证》 [23] - 截至2024年12月,商汤绝影已与超过30家国内外车企合作,覆盖超130款车型,累计交付总量超360万辆 [25] 行业背景与挑战 - 当前许多辅助驾驶方案在新场景下处理能力不足,事故时有发生 [1] - 端到端模型依赖海量高质量数据训练,但极端场景有效信息提取率不足1%,高价值数据稀缺 [1][5] - 端到端范式本质是模仿学习,在新场景下决策不确定性高,安全边界模糊,且难以超越人类驾驶能力上限 [1][5] - 行业正从规则式、感知决策一体化的端到端模型,向生成式智驾演进 [3][5]