Workflow
自动驾驶大模型
icon
搜索文档
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 17:36
行业动态与平台定位 - 行业已进入L2智能驾驶下半场 面临难点与痛点 需要更多参与者共同突破[2] - 公司作为国内自动驾驶领域技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台[2] 平台发展规划 - 公司将增加圆桌访谈、实战与工业级课程、咨询等多种形式的内容输出[2] - 平台主要面向自动驾驶培训合作 B端面向企业、高校及研究院所 C端面向学生及求职人群[5] - 平台业务包括课程开发和原创文章创作[5] 人才招募方向 - 公司招募优秀伙伴加入 合作方向包括自动驾驶产品经理、4D标注与数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向[4]
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 10:03
行业阶段与平台定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在为行业带来价值 [2] 平台发展规划 - 平台计划增加圆桌访谈 实战及工业级课程 咨询等各类输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 主要业务方向 - 业务方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向 [4] 岗位与业务说明 - 岗位主要面向自动驾驶培训合作 包括面向企业和高校研究院所的B端培训 以及面向学生和求职人群的C端培训 [5] - 岗位职责包括课程开发和原创文章创作 [5]
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型
机器之心· 2025-12-10 10:09
行业背景与问题 - 当前自动驾驶领域的大规模视觉语言模型在语义理解和逻辑推理上表现突出,但在真实道路场景中处理长尾场景、远距离目标和复杂博弈时,常出现看不清、定位不准、反应不稳定等低级错误[2] - 深层原因在于现有模型在空间感知和几何理解上的能力,远落后于其语义表达能力,导致其无法满足自动驾驶对精确空间理解的高要求[2] - 许多现有方案通过在训练中加入感知类问题来增强模型,但这仅停留在语义标签和粗略相对关系层面,未能让模型掌握可用于控制决策的强2D/3D感知能力,例如精确的检测框、分割结果和BEV感知信息[2] - 这种“弱感知的大模型”只能回答关于世界的问题,而非真正看清世界,不足以支撑自动驾驶和广义具身智能[2] 解决方案:Percept-WAM模型概述 - 引望智能与复旦大学的研究团队联合提出了面向自动驾驶的新一代大模型Percept-WAM,旨在将“看见世界”、“理解世界”和“驱动车辆行动”在一个统一模型中打通,形成从感知到决策的完整链路[3] - 该模型基于具备通用推理能力的VLM主干构建,在保留其语言与推理优势的同时,引入了World-PV和World-BEV世界Token,以统一PV和BEV视角下的2D/3D感知表示[5] - 模型接收多视角流式视频、可选的LiDAR点云以及文本查询作为输入,在同一模型上联合优化多种任务,包括PV下的2D检测、实例分割、语义分割、单目3D检测,BEV下的3D检测与BEV地图分割,以及基于多帧输入的轨迹预测任务[6] 核心技术:世界Token与统一表征 - Percept-WAM围绕World–Awareness–Action构建统一的世界Token空间,将多视角图像和3D场景压缩为一小组结构化World tokens,每个token显式携带语义特征、空间位置及置信度,用作下游任务的共享世界表征[9] - 在图像平面,World-PV tokens将每帧图像划分为规则栅格,每个栅格输出一组token,联合编码局部外观与2D/3D几何信息,基于此可统一建模2D检测、实例/语义分割、单目3D检测等任务[9] - 在鸟瞰视角,World-BEV tokens对应覆盖前方场景的固定分辨率BEV网格单元,通过与多视角PV特征的交互隐式建模PV到BEV的映射,聚合该区域的占据状态、语义类别和运动属性,显式刻画道路结构与交通参与者的空间关系[10] 核心技术:栅格条件预测与IoU感知 - 为提升城市场景中高密度目标预测的稳定性,模型引入了栅格条件预测和IoU-aware置信度回归两项关键设计[11] - 栅格条件预测将整个特征空间按PV/BEV栅格划分为多个子区域,围绕每个栅格构造局部自回归序列,不同栅格间通过注意力掩码隔离,限制跨区域无关交互,从而显著缩短单序列长度,提升高密度场景下的收敛性与训练推理效率[12] - IoU-aware置信度预测显式建模候选框的定位质量,在训练阶段监督置信度微调数据集的分值token,在推理阶段输出预测框与真实框的IoU预测结果,并将该IoU置信度分数与分类分数联合用于整体置信度排序,此设计在小目标、远距离目标及长尾类别上能提供更一致的候选排序,提升密集检测的可靠性[13] 核心技术:从感知到轨迹的决策链路 - 模型在感知类World tokens之上引入World–Action tokens,用于动作与轨迹预测的查询,这些tokens从感知tokens中聚合多视角图像与BEV表征的信息,并与车辆状态融合,在统一坐标系下直接生成未来规划轨迹或控制信号[16] - 相比“先产出BEV特征,再交由独立规划网络”的两阶段方案,World–Action在同一token空间内完成从世界建模到决策输出,使感知与规划在表示空间和时空对齐上天然一致[16] - 在轨迹解码方式上,采用轻量级MLP解码头驱动的基于查询的轨迹预测,World–Action由多组功能不同的查询组成,分别关注自车状态、PV侧特征、BEV侧特征或同时汇聚所有输入特征,以并行方式工作并输出最终轨迹[17] - 面向连续驾驶场景,模型引入流式推理,在时间维度上采用流式KV缓存策略复用历史帧的注意力缓存,仅对新帧做增量计算,同时通过更长片段训练方案和双重重计算KV缓存机制缓解训练-推理不一致带来的分布漂移与误差累积,从而在不显著牺牲规划精度的前提下降低多帧端到端推理的时延与计算开销[19] 实验结果:PV视角感知性能 - 在nuImages/nuScenes的PV任务上,Percept-WAM在2D与单目3D检测上整体匹配或超过专用模型[22] - 在2D检测上达到49.9 mAP,高于Mask R-CNN的47.8 mAP[22] - 在2D实例分割上取得41.7 mAP,高于Mask R-CNN的38.6 mAP[22] - 在单目3D检测上达到33.0 mAP,优于FCOS3D的32.1 mAP[22] - 实验观察到明显的2D–3D协同效应,在统一World-PV表征下联合建模2D与3D检测,可带来约+3.2 mAP的2D检测增益[23] - 对所有PV任务进行联合训练,各基准上性能基本维持一致或提升,说明统一的World-PV token空间有利于在多任务间共享几何与语义信息[23] 实验结果:BEV视角感知性能 - 在BEV空间中,Percept-WAM通过World-BEV tokens统一建模路面占据、动态目标与地图语义[27] - 在不使用时序信息且采用较低图像分辨率(448×796)的设置下,在nuScenes BEV 3D检测上取得58.9 mAP,整体表现优于PointPillars与SECOND等经典BEV检测器[27] - 在BEV地图分割任务上,模型可同时刻画车道线、可行驶区域、行人横穿区等静态语义要素,在部分关键类别(如可行驶区域、行人横穿区)上的分割结果可以超过BEVFusion等专用BEV模型[28] 实验结果:端到端轨迹规划性能 - 在端到端轨迹规划上,搭载World–Action轨迹解码头的Percept-WAM在nuScenes与NAVSIM上均取得有竞争力的表现[30] - 在nuScenes的开环轨迹评估中,Percept-WAM的平均轨迹L2误差约为0.36米,在同等设置下优于多数BEV-based方法(如UniAD)以及VLM-based方法(如DriveVLM)[31] - 在NAVSIM的闭环驾驶评测中,Percept-WAM采用对聚类轨迹打分的方式,获得约90.2的综合得分,同样优于大部分现有端到端方法[32] - 实验表明,两阶段训练策略(先在感知与中间任务上预训练,再在规划任务上微调)可以进一步提升端到端驾驶性能[32] 模型价值与行业意义 - Percept-WAM指出了一条面向未来的演进路径,即在统一大模型中做强世界感知,用World tokens一体化打通世界表征与行为决策,逐步沉淀可持续演进的自动驾驶世界模型[41] - 其价值不在于提供了一个更大的模型,而在于给出了一个更完整、工程上可落地的范式,即自动驾驶的大模型不应只是会聊天问答的“语文老师”,而应是一个真正能构建世界、理解世界并在其中安全行动的“世界大脑”[41]
寻找散落在各地的自动驾驶热爱者(产品/部署/世界模型等)
自动驾驶之心· 2025-12-06 11:04
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在行业激流中贡献力量并创造价值 [2] 平台发展规划 - 平台计划陆续增加圆桌访谈、实战及工业级课程、咨询等多种形式的内容输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 业务聚焦方向 - 平台业务主要聚焦于自动驾驶产品经理、4D标注与数据闭环、世界模型、视觉语言动作模型、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] - 平台岗位主要面向自动驾驶培训合作 包括面向企业与高校的B端培训以及面向学生与求职人群的C端培训 同时涉及课程开发与原创文章创作 [5]
模型部署/产品经理方向合伙人招募
自动驾驶之心· 2025-11-26 08:04
公众号内容升级与行业定位 - 公众号内容正从单篇文章解读向更深入的技术梳理、方案分析和观点讨论过渡[2] - 行业已进入技术深水区 难点和痛点需要更多参与者共同突破[2] - 平台致力于成为能为自动驾驶行业带来价值的技术创作平台[2] 近期行业技术动态 - 特斯拉、小鹏、理想等公司近期的技术分享引发了广泛深入的行业讨论[2] 人才招募与合作方向 - 招募方向涵盖自动驾驶产品经理、4D标注、数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术领域[4] - 合作岗位主要面向自动驾驶培训合作 包括B端企业、高校、研究院所培训以及C端学生和求职人群[5] - 合作内容涉及课程开发和原创文章创作[5]
留给端到端和VLA的转行时间,应该不多了......
自动驾驶之心· 2025-11-25 08:03
课程核心观点 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型演进,掌握相关前沿技术对职业发展至关重要 [1] - 行业端到端和视觉语言动作模型岗位即将饱和,为从业者留下的窗口期已不多 [1] - 推出《端到端与视觉语言动作模型自动驾驶小班课》和《自动驾驶视觉语言动作模型和大模型实战课程》,旨在帮助学员快速高效入门 [1] 自动驾驶视觉语言动作模型与大模型实战课程 - 课程聚焦视觉语言动作模型领域,内容涵盖从视觉语言模型作为自动驾驶解释器到模块化、一体化及当前主流的推理增强视觉语言动作模型 [1] - 课程配套理论基础梳理,包括视觉、语言、动作三大模块、强化学习、扩散模型等,并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [1] - 由学术界专家带队,适合刚接触大模型和视觉语言动作模型的学员 [1] 端到端与视觉语言动作模型自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解鸟瞰图感知、大语言模型、扩散模型和强化学习 [9] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [9] - 由工业界专家带队,讲师为国内顶级主机厂算法专家,拥有端到端算法研发和产品量产交付经验 [9][11] 师资团队 - 讲师团队由学术界和工业界专家组成,包括清华大学硕士生、QS30高校博士等,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][8][11] - 团队拥有多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验,并主持完成多项自动驾驶框架工具和产品量产 [6][8][11] - 一位讲师在GitHub上维护的自动驾驶与计算机视觉开源项目总Star数已超过2k [6] 目标学员与技术要求 - 学员需自备GPU,推荐算力在4090及以上 [12] - 要求具备一定的自动驾驶领域基础,熟悉基本模块,了解Transformer大模型、强化学习、鸟瞰图感知等技术概念 [13] - 需具备概率论、线性代数基础及Python和PyTorch编程能力 [13]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-09 00:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 20:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
何小鹏:为搞AI“烧掉”20多亿,曾“每月花1个多亿”
凤凰网· 2025-11-05 15:46
研发投入与规模 - 公司为探索VLA技术路线,自2024年至今已投入3万卡的算力资源 [1] - VLA项目整体训练费用巨大,累计投入超过20亿元人民币 [3] - 项目月度训练费用高昂,曾出现单月支出超过1亿元人民币的情况 [3] 技术突破与战略调整 - 基于物理世界模型、跳过语言环节的创新VLA方案于今年第二季度取得技术突破 [3] - 技术突破促使公司决定停止标准VLA方案的开发,全力转向新技术路线 [3] - 此项进展被认为将公司自动驾驶技术的升级换代进程提前了接近两年 [3] 研发过程与挑战 - VLA项目研发过程充满挑战,在很长时间内未能看到明确希望 [3] - 研发团队内部曾多次讨论是否终止VLA团队项目 [3] - 高昂的月度账单给公司带来了持续的巨大压力 [3]
端到端和VLA,正在吸引更多智驾公司的关注......
自动驾驶之心· 2025-10-23 08:04
端到端与VLA自动驾驶行业需求 - 主机厂和供应商对端到端及VLA技术人才的需求旺盛,反映出行业技术迭代加速 [1] - 端到端自动驾驶算法主要分为一段式和两段式两大技术范式,其中UniAD是一段式的代表性工作 [1] - 基于VLA的端到端算法是当前学术和工业界的热点,相关论文呈爆发式增长并正推动量产落地 [1] 端到端与VLA技术栈 - 核心技术涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多个前沿领域 [3] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及VLA等多种实现路径 [1] - 从模块化算法演进至端到端,再发展到VLA,代表了自动驾驶技术发展的主要方向 [3] 自动驾驶VLA与大模型实战课程 - 课程由学术界专家主导,系统梳理从VLM作为解释器到模块化VLA、一体化VLA及推理增强VLA的技术体系 [3] - 课程内容涵盖Vision/Language/Action三大模块,并设有大作业指导学员从零搭建VLA模型及数据集 [3] - 授课教师来自清华大学及QS30高校,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,GitHub项目总Star数超过2k [8][11] 端到端与VLA自动驾驶课程 - 课程由工业界专家主导,重点讲解一段式/两段式端到端算法的核心理论与模型 [12] - 课程设计包括基于扩散模型的Diffusion Planner和基于VLA的ORION算法两大实战项目 [12] - 授课教师为国内顶级主机厂算法专家,拥有端到端及大模型算法的预研和量产交付经验 [14] 课程目标人群要求 - 学员需自备GPU,推荐算力为4090及以上 [15] - 要求学员具备一定的自动驾驶领域基础,并熟悉Transformer、强化学习、BEV感知等基本概念 [16] - 学员需拥有概率论、线性代数基础,并掌握Python和PyTorch编程能力 [16]