自动驾驶之心
搜索文档
正式开售!面向科研的自动驾驶全栈小车......
自动驾驶之心· 2025-12-19 13:46
采购硬件欢迎添加微信 vision_tech3d 做进一步咨询。 1)黑武士001 自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿 克曼底盘。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近一个同学在后台私信我们,想真正动手做一套自动驾驶系统,但是不知道从哪里开始?其实这也是很多想 要入门自动驾驶实操的同学共同的困惑。 科研级的平台性能强大,但价格堪比一台小型车,远超大多数团队的预算;而一些教学套件虽然价格适中,却 不够完整,光配置环境和学习操作就要耗上几个周,项目还没开始,热情就被磨平了。 难道就没有一个性价比拉满、能快速上手的方案?当然有!专为科研&教学量身打造的自动驾驶全栈小车黑武 士系列001,正式开售啦~ 36999元就能拿下全栈配置,性价比直接拉满 ,操作简单易上手,新手也能快速解 锁全流程实操!现在下单还直接赠送模型部署 + 点云 3D 检测 + 多传感器融合 3 门硬核课程,优先锁定名额即 刻安排组装发货,想把自动驾驶项目落地的同学,这次可别错过啦~ 本科生学习进阶+比赛; ✅ 研究生 ...
奔驰&图宾根联合新作!SpaceDrive:为自动驾驶VLA注入空间智能
自动驾驶之心· 2025-12-19 13:46
文章核心观点 - 奔驰与图宾根大学等机构联合提出了一种名为SpaceDrive的新型端到端自动驾驶框架,该框架通过引入统一的3D位置编码,解决了现有基于视觉语言模型的驾驶系统在精细3D空间关系理解和连续坐标预测方面的根本缺陷,从而显著提升了轨迹规划的几何精度与安全性 [2][3][31] 当前VLM在自动驾驶中的系统缺陷 - **2D语义与3D几何的割裂**:视觉语言模型主要在大规模2D图像-文本对上进行预训练,极度缺乏3D空间先验,导致场景描述模糊和空间推理能力存在缺陷 [5] - **数字token化的缺陷**:语言模型将坐标数值逐位拆解为字符或数字token进行处理,本质是拟合token的联合分布而非进行数值计算,这忽略了数值的连续邻近结构,并将不同位token的重要性平均化,从机制上拉低了连续数值预测的精度与稳定性 [5] SpaceDrive框架的核心方法 - **统一的空间接口**:摒弃传统VLM将坐标数值视为文本token的处理方式,引入统一的3D位置编码作为通用的空间表征,贯穿于感知、推理和规划阶段 [3][4] - **感知阶段:视觉与深度的显式融合**:利用冻结的深度估计器获取绝对深度,将图像Patch投影至3D度量空间,生成3D位置编码向量,并将其叠加到视觉token上,为视觉输入注入绝对空间坐标信息 [8][9] - **推理阶段:统一坐标接口**:将输入提示中的坐标数值提取出来,使用与视觉侧相同的3D位置编码器进行编码,替换原有的数字token序列,并在前面插入特殊指示符⟨IND⟩,实现文本侧的空间信息统一表示 [10] - **输出阶段:回归优于分类**:当模型生成特殊指示符⟨IND⟩时,后续的隐藏状态被送入一个专用的位置编码解码器,直接回归出3D坐标,取代了语言模型逐位生成数字的方式 [13][14] - **损失函数**:对于坐标预测采用Huber Loss进行监督,文本部分则保留原有的交叉熵损失 [15] 实验性能与评估 - **开环规划性能**:在nuScenes数据集的开环评估中,SpaceDrive+在所有指标上超越了现有的OmniDrive/ORION等VLM-based方法,平均L2误差为0.32米,平均碰撞率为0.23%,平均越界率为1.27% [17] - **闭环规划性能**:在Bench2Drive闭环基准测试中,SpaceDrive+取得了78.02的驾驶得分和55.11%的成功率,在VLM-based方法中排名第二 [3][20][21] - **框架优势**:SpaceDrive框架完全不依赖鸟瞰图特征,统一的位置编码接口足以支撑VLM内部的3D空间建模,从架构上减少了对密集鸟瞰图表征的依赖 [18] 消融实验的关键结论 - **位置编码注入位置很关键**:仅将位置编码用于文本坐标替换而不注入视觉token提升有限;将3D位置编码注入视觉token带来显著增益;当统一的位置编码同时应用于视觉和文本时,规划性能最高 [26] - **编码器/解码器选择十分重要**:正弦余弦编码因其天然的平移等变性,作为编码器优于可学习的MLP编码器;输出端使用可学习的、逐坐标点的MLP解码器优于直接反解正弦余弦编码 [27] - **可学习的归一化因子十分重要**:固定尺度的位置编码容易造成语义不稳定或收敛困难,而可学习的归一化因子显著改善了L2误差、碰撞率和越界率 [28] - **位置编码接口具备可迁移性**:同一套位置编码空间接口在Qwen-VL与LLaVA两种不同的基础视觉语言模型上都能保持相近的性能收益,说明增益主要来自统一空间推理接口而非特定基座模型的特殊适配 [30] SpaceDrive框架的主要贡献 - **通用空间表示**:引入统一的3D位置编码,在感知、推理和规划模块中始终如一地工作,超越了特定任务的嵌入,迈向了更具通用性的空间智能 [33] - **显式3D理解**:将空间编码与视觉token进行加性整合,在语义内容和3D位置之间创建了显式关联,实现了更准确的场景理解和推理 [33] - **回归坐标数值本质**:通过用基于回归的专用解码取代逐位坐标生成,解决了语言模型在处理连续数值量方面的根本限制 [33] - **框架通用性**:该方法展示了与不同VLM架构的兼容性,并证明适用于推理时增强功能,表明其广泛适用性 [33]
Wayve最近的GAIA-3分享:全面扩展世界模型的评测能力......
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 公司Wayve推出的GAIA-3是一个用于自动驾驶评估的规模化世界模型,它将世界建模从一个视觉合成工具转变为自动驾驶安全与评测的基石,旨在解决大规模评估自动驾驶系统时面临的成本高、数据效率低、罕见安全事件难以捕获等核心挑战 [1][4] GAIA-3的定位与目标 - 旨在将世界建模从视觉合成工具转变为自动驾驶评估的基石,生成的驾驶场景不仅逼真,而且结构化和有目的性,用于测量、比较并加速实现安全、可扩展的自动驾驶 [4] - 结合了真实世界数据的真实感与仿真的可控性,允许对真实驾驶序列进行精确、参数化的变体重现,例如在保持场景其他元素一致的同时改变自车轨迹 [6] - 其目标是确立生成式仿真作为衡量进展和证明整个具身人工智能领域安全性的主要工具 [20] GAIA-3的技术能力与规模 - GAIA-3是一个拥有150亿(15B)参数的基于潜在扩散(Latent Diffusion)的世界模型 [3][16] - 其视频分词器(video tokenizer)大小是前代GAIA-2的两倍 [3][19] - 训练计算量是GAIA-2的五倍,数据量大约是GAIA-2的两倍,覆盖了3大洲的8个国家 [16] - 模型规模相比GAIA-2增加了一倍,扩展了表征能力和生成精度,实现了更清晰的视觉效果、更一致的光照和更丰富的纹理细节 [18][19] GAIA-3的核心应用:安全关键场景生成与评估 - 可对真实世界驾驶序列进行受控且逼真的变体生成,在保持环境其他部分一致的同时改变自车轨迹,从而系统化生成碰撞和接近碰撞场景,用于可扩展、可复现的安全验证 [7] - 可以虚拟地、大规模地生成类似NCAP(新车评估规程)风格的测试,既可以在模拟的测试场环境中,也可以在不同的现实世界条件下进行 [7] - 生成安全关键场景时注重一致性,确保当仅自车行为改变时,场景的其余部分在物理上和视觉上保持连贯 [8] GAIA-3的核心应用:离线评估套件 - 通过动作条件控制自车行为,并结合“世界在轨”扰动,可以从单个记录序列创建一整套“假设”情景,形成结构化、可扩展、可重复且可测量的离线评估测试套件 [9] - 该评估套件比静态回放提供更丰富的诊断信号,能揭示驾驶策略在条件改变时的行为变化,其合成干预与道路实验之间的相关性研究表明,该模型能够可靠地预测相关策略性能 [9] GAIA-3的核心应用:化身迁移 - 支持化身迁移,可以从新的传感器配置重新渲染同一场景,只需使用目标摄像头配置的一个小型、非配对样本即可 [10] - 这意味着评估套件可以轻松地在不同的“化身”或不同汽车制造商(OEM)的车辆项目之间迁移,而无需进行配对采集 [10] GAIA-3的核心应用:鲁棒性与可解释控制 - 引入了受控的视觉多样性,允许场景的外观(如光照、纹理和天气)发生变化,而底层结构(几何结构和运动)保持一致,从而可以直接比较模型在不同视觉条件下的性能,大规模评估鲁棒性 [11] GAIA-3的核心应用:数据丰富化与调试 - 可以从少量示例中学习,并围绕它们生成结构化变体,从而将诸如刹车或并线等场景家族扩展为丰富且物理一致的测试集 [12] - 能够将罕见的故障模式(如在街道中央急刹车)转换到新的场景和地理环境中,帮助利用罕见的分布外示例来扩展数据集,用于针对性测试或再训练 [13][15]
博世拿下百亿ADAS订单
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 丰田与博世达成的百亿级全球ADAS项目合作,标志着智能驾驶行业的竞争从中国区域“内卷”全面升级为全球范围内的“体系化竞合”,并为全球智驾供应商选择立下了“行业标尺” [5] - 此次合作凸显了智能驾驶全球化竞争的核心已从区域技术比拼,转向全球范围内的工程落地、合规网络构建与本地化生态适配能力 [6][9] - 对于中国车企而言,智驾能力已从产品“加分项”变为出海“必答题”,必须直面全球化工程落地与本地化适配的挑战,并需寻求具备全球合规与本地化运营能力的合作伙伴 [6][10] 丰田与博世合作概述 - 丰田正式敲定百亿级全球ADAS项目合作伙伴,最终选择博世,这是目前全球智驾领域规模最大的单笔项目 [5] - 项目覆盖北美、欧盟、英国、日本等核心主力市场,可实现L2级智驾功能,包含高速NOA [5] - 合作双方分别是全球汽车销量龙头丰田与全球顶级Tier 1供应商博世,被视为全球汽车产业“顶流资源”的战略锚定 [5] 合作背后的行业意义与转向 - 宣告跨国车企已全面加速智驾全球化进程,行业竞争主场从中国拓展至全球全域 [6] - 智驾竞争的核心正从区域技术炫技,转向全球范围内的工程落地与生态适配 [6] - 对供应商的评价标准超越单纯技术参数,更看重覆盖全球核心市场的合规网络、本地化需求匹配及运营生态搭建能力 [7] 博世的竞争优势分析 - 博世拥有深度渗透全球各区域的渠道网络与服务体系,能为丰田搭建从技术适配、法规对接到落地运营、售后保障的全链条合规体系 [7] - 即便在中国市场,博世也展现出进化能力,于今年行业首发量产一段式端到端方案,并击败其他头部智驾公司实现量产落地 [8] - 在“油电同智”的蓝海市场具备主场优势,博世在油车时代深度参与全球主流车企智驾项目,且其生产油车动力系统核心零部件,对系统理解深刻,能深度协同 [8][9] - 传统车企加速补齐油车与混动车型智驾功能,为行业带来近1500万辆的潜在增量,而博世在油车智驾工程落地经验上具有优势 [8] 对中国车企的启示与挑战 - 中国车企的“智驾出海”面临不同国家的地缘壁垒、迥异法规体系、多元用户习惯等核心痛点,必须拿出能真正落地的工程方案 [6] - 智驾全球化的终极较量是“谁更懂本地”的综合实力博弈,而非单纯技术参数比拼 [9][10] - 中国车企若想在全球竞赛中占据一席之地,需借势找到具备全球合规网络与本地化深度运营能力的合作伙伴 [10]
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
行业技术趋势与人才需求 - 自动驾驶行业端到端技术路线已被头部玩家验证可行 其他车企正跟进投入人力和资源 [2] - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当前端到端量产落地最重要的技术栈 [2] - 行业面临人才挑战 候选人往往只懂部分技术 在导航信息引入、强化学习调优、轨迹建模优化等具体量产经验上存在痛点 [2] 课程核心内容与结构 - 课程为期三个月 包含七个实战项目 聚焦量产应用 [2] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终章节将分享从数据、模型、场景、规则等多视角的量产经验 [14] 技术模块详解 - **第一章:端到端任务概述** 介绍感知任务合并与规控算法learning化的主流趋势 讲解感知模型一体化架构和规控learning化方案 并介绍开源数据集与评测方式 [7] - **第二章:两段式端到端算法** 讲解两段式框架建模及感知与PNC信息传递方式 分析其优缺点 并通过PLUTO算法进行实战 [8] - **第三章:一段式端到端算法** 介绍一段式框架 其可实现信息无损传递 性能优于两段式 涵盖基于VLA和基于Diffusion等方法 并通过VAD系列进行深入学习 [9] - **第四章:导航信息量产应用** 讲解导航地图的格式与内容 及其在端到端模型中的编码与嵌入方式 以更有效发挥导航能力 [10] - **第五章:自动驾驶中的RL算法** 在模仿学习基础上引入强化学习以解决人类驾驶风格差异和corner-case场景数据稀缺问题 实现模型泛化 重点介绍强化学习算法及训练策略 [11] - **第六章:端到端轨迹输出优化** 进行nn planner项目实战 包括基于模仿学习的扩散模型与自回归算法 以及后续的强化学习算法 [12] - **第七章:时空联合规划兜底方案** 介绍量产中用于轨迹平滑优化的后处理兜底逻辑 包括多模态轨迹打分搜索算法和轨迹平滑算法 以保证输出轨迹稳定可靠 [13] 课程安排与学员要求 - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [15] - 课程从11月30日开始 按周或双周解锁新章节 至次年2月24日完成全部八章内容 [16][18] - 课程面向进阶学员 建议自备算力在4090及以上的GPU 并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论 具备Python、PyTorch及mmdet3d框架基础 [17]
清华UniMM-V2X:基于MOE的多层次融合端到端V2X框架
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 传统的模块化自动驾驶系统存在误差传递和泛化能力有限的问题,而单体端到端系统在应对罕见事件和预测他车意图方面能力不足,车联网(V2X)通信是克服这些局限性的关键技术 [1] - 提出的UniMM-V2X框架首次在多智能体端到端自动驾驶中实现了感知与预测的多级协同,并引入混合专家模型(MoE)架构,为不同任务动态定制特征,在感知、预测和规划任务上均达到当前最佳性能 [1][7] - 该框架通过多级融合与MoE的深度协同,为实现更安全、更具可解释性的协同自动驾驶提供了全新方案,并展现出在实际场景中部署的潜力 [1][25] 技术框架与核心特点 - **框架组成**:UniMM-V2X由图像编码器、协同感知模块以及协同预测与规划模块三部分组成,感知与预测层面的融合构成了统一的多级融合框架 [8] - **MoE架构应用**:在BEV编码器和运动解码器中均部署了MoE架构,编码器为检测、跟踪、建图、运动预测等下游任务生成任务自适应的BEV特征,解码器通过针对特定运动的专家分支提升规划质量 [6][9][11] - **多层级融合机制**: - 感知级融合:采用注意力机制建模智能体间查询关系,进行加权特征融合,克服了依赖固定距离阈值方法的局限性,实现了上下文感知和空间敏感性的特征融合 [12][14] - 预测级融合:通过旋转矩阵转换坐标,并利用注意力机制整合感知上下文,为复杂多智能体场景下的运动推理提供先验信息 [12][14] - **核心贡献**:首次探索多智能体端到端自动驾驶中的多级协同;在编码器和解码器中均引入MoE以增强灵活性与专业化;通过实验验证了多级融合与MoE结合的强大互补效应 [7] 性能表现与实验结果 - **规划性能**:在DAIR-V2X数据集上,UniMM-V2X实现了最低的平均L2误差(1.49米),优于所有基准模型,同时展现出卓越的安全性,3秒平均碰撞率仅为0.12% [15][16] - **感知性能**:与最先进的端到端协同驾驶框架相比,在不增加感知层额外通信成本的前提下,检测性能(mAP)提升了39.7%,跟踪性能(AMOTA)提升了77.2% [17][18] - **预测性能**:取得了最佳的运动预测性能,最小平均位移误差(minADE)为0.64米,最小最终位移误差(minFDE)为0.69米 [19][20] - **综合提升**:该框架使检测性能提升39.7%,跟踪性能提升77.2%,运动预测误差降低7.2%,L2规划误差降低33.2%,碰撞率降低52.0% [7][25] 技术有效性分析 - **多级融合的作用**:感知级融合提升了检测和跟踪性能,但对运动预测和规划影响有限;预测级融合通过提供补充运动线索增强了规划安全性;单层融合不足以优化所有驾驶任务,多级融合确保了高质量中间特征的传播,实现了所有模块的性能提升 [22] - **MoE架构的作用**:仅在BEV编码器中集成MoE增强了环境理解能力,提升了单车感知和规划性能;仅在运动解码器中使用MoE收益有限;当MoE同时应用于编码器和解码器时取得最佳结果,此时编码器产生任务感知特征,解码器利用专家专业化能力捕捉复杂运动行为 [22] - **消融实验证明**:多层级融合与MoE设计的结合对驾驶性能提升有效,表4详细展示了不同配置下的性能对比 [23] 系统实用性与部署潜力 - **通信效率**:与消耗大量带宽的BEV特征传输方法不同,该框架在不牺牲规划质量的前提下,将通信成本大幅降低了87.9倍 [24] - **运行效率**:UniMM-V2X达到了5.4 FPS的帧率,集成MoE和多级融合机制导致速度轻微下降,但相对于规划安全性和可靠性的显著提升,成本效益比极佳 [24] - **环境适应性**:在不同带宽条件下均表现良好,能够有效利用可用通信带宽进行协同规划,确保了在真实世界自动驾驶场景下的可靠性和可扩展性 [24][27] - **部署前景**:该框架在不同带宽约束下展现出了可靠性,突显了其在现实世界协同驾驶中的实际部署潜力,为多智能体协同驾驶的未来提供了一条清晰的技术路线 [25]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
输出你的insights,我们在招募这些方向的合伙人......
自动驾驶之心· 2025-12-18 17:35
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 自动驾驶已经进入下半场,行业的难点和痛点需要更多有志之士参与进来一起突破。后面我们将陆续为 大家增加圆桌访谈、实战&工业级课程、咨询等各类输出。 作为国内自动驾驶领域创作的技术平台,我们期望能够在这波激流中贡献自己的力量,成为一个真的能 给行业带来价值的平台。 众人拾柴火焰高,我们需要更多优秀的伙伴加入我们。 岗位说明 主要面向自动驾驶培训合作(B端主要面向企业和高校、研究院所培训,C端面向较多学生、求职类人 群)、课程开发和原创文章创作。 联系我们 待遇与合作方式,欢迎添加微信wenyirumo做进一步沟通。 主要方向 包括但不限于:自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学 习、端到端等多个方向。 ...
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
文章核心观点 DeepSeek-V3.2通过三大核心技术突破,在多项关键性能上追平甚至超越了顶级闭源大语言模型,证明了开源模型通过架构创新、算力投入与数据工程的结合,完全有能力挑战闭源模型的主导地位,为开源模型的发展树立了新的里程碑 [2][43] 开源模型的痛点与破局方案 - **传统开源模型面临三大核心困境**:在架构层面,依赖标准注意力机制导致长序列计算复杂度高(O(L²)),推理速度慢 [7];在资源分配上,后训练阶段算力投入不足,导致数学推理、代码生成等硬核任务性能难以提升 [7];在智能体能力方面,在工具使用、场景泛化和指令遵循等关键指标上与闭源模型存在明显差距 [7] - **DeepSeek-V3.2的针对性破局方案**:通过创新注意力机制解决效率问题,通过加大后训练算力投入提升硬核性能,通过大规模智能体任务合成流水线强化工具使用与泛化能力 [8] 核心技术解析:DeepSeek稀疏注意力(DSA) - **核心创新与效率提升**:引入DeepSeek稀疏注意力(DSA)机制,通过“闪电索引器+细粒度token选择”的双组件设计,将核心注意力计算复杂度从O(L²)降至O(Lk)(k远小于序列长度L)[10][11] 对于128K长度的长序列,k值通常设置为2048,仅需处理传统计算量的1.6%(2048/128000),效率提升极为显著 [15] - **闪电索引器设计**:采用少量索引头(H¹)和FP8精度进行计算,相较于传统机制的FP16/FP32精度,计算量显著降低,同时通过特定计算逻辑生成索引得分,兼顾效率与准确性 [12][13] - **两阶段训练策略**:训练分为密集预热和稀疏训练两个关键阶段,确保DSA在长上下文任务中实现端到端显著提速,且在短文本任务上未出现性能退化 [17][19][20] 核心技术解析:可扩展强化学习框架 - **算力投入**:将后续训练的算力预算提升至预训练成本的10%以上,通过稳定的训练框架充分释放算力价值,实现了推理性能的跨越式提升 [21] - **高性能变体成果**:推出高性能变体DeepSeek-V3.2-Speciale,该变体在IMO 2025、IOI 2025、ICPC世界总决赛2025等顶级赛事中均斩获金牌,性能比肩Gemini-3.0-Pro,成为首个在国际顶级竞赛中达到金牌水平的开源模型 [23] 核心技术解析:大规模智能体任务合成 - **冷启动阶段**:采用DeepSeek-V3的方法论,通过提示工程引导和数据混合采样,将模型的推理能力与工具使用能力在训练初期进行对齐和融合,为后续强化学习提供高质量的初始策略 [25][29][35] - **大规模任务合成流水线**:构建自动化智能体任务合成流水线,生成大规模、多样化、高质量的智能体训练数据,具体包括通用智能体、搜索智能体、代码智能体和代码解释器智能体等类型 [30][32][36] - **策略成效**:系统性提升了模型在工具使用场景中的泛化能力与指令遵循性,在MCP-Universe、MCP-Mark等未见过的工具使用基准测试中表现出色,证明了其能将推理策略泛化到域外的智能体场景 [33][36] 模型实测表现 - **推理能力**:在MMLU-Pro(85.0)、GPQA Diamond(82.4)等通用基准上与GPT-5-High水平相当 [39][40] 在数学领域,AIME 2025通过率达93.1%,HMMT 2025二月赛通过率92.5%,均处于开源模型前列 [39][40] - **代码能力**:在LiveCodeBench的COT模式下通过率83.3%,Codeforces评级达2386分,在SWE-Verified(软件工程师验证基准)中解决率73.1%,显著优于其他开源模型 [39][40] - **工具使用能力**:在中文搜索基准BrowseCompZh中通过率达65.0%,在τ²-bench中通过率80.3%,在MCP-Universe中成功率45.9%,大幅缩小了与闭源模型的差距 [39][41] - **成本效率**:通过DSA机制,模型在H800 GPU上的推理成本显著低于前代产品,长序列解码时的成本优势尤为明显 [27][41]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]