Workflow
自动驾驶大模型
icon
搜索文档
广东:推动自动驾驶大模型落地
南方都市报· 2026-01-22 07:11
小马智行无人驾驶出租车行驶在路上。 南方日报记者 许舒智 摄 加速推进智能网联汽车试点应用、支持有条件的自贸区、行政区率先实现示范应用试点互认,推动跨市 测试道路互联互通和测试结果及牌照互认、支持广州、深圳建设国家"车路云一体化"应用试点城市…… 近日,广东省人民政府办公厅正式印发《广东省人工智能赋能交通运输高质量发展若干政策措施》(下 称《措施》),以14条硬实举措构建"核心要素供给—创新场景赋能—工作机制保障"全链条体系,助力 打造全国领先的智慧交通发展高地。 加快人工智能专业模型研发 核心要素供给是人工智能赋能交通发展的基础保障,《措施》从数据供给、算力算法保障、关键技术攻 关三方面精准发力,构建全方位支撑体系。 先实现示范应用试点互认,扩大高级别自动驾驶应用区域。以黄金内湾六市(广州、深圳、珠海、佛 山、东莞、中山)为试点,推动跨市测试道路互联互通和测试结果及牌照互认,并逐步向其他城市拓 展;支持广州、深圳建设国家"车路云一体化"应用试点城市,探索货车自动驾驶编队在港口集疏运、物 流园区等场景的测试应用,推动无人重卡商业化运营及与新能源重卡融合发展。 智慧公路建设将迎来全方位赋能。广东将推进智慧建造, ...
上海发布“模速智行”行动计划,自动驾驶产业驶入加速赛道
国泰海通证券· 2026-01-18 20:28
行业投资评级 - 评级:增持 [1] 报告核心观点 - 上海发布《“模速智行”行动计划》旨在加速智能网联技术创新向产业竞争力转化 推动上海高级别自动驾驶由示范走向规模化商业化 [3] - 建议积极关注自动驾驶大模型与训练评测基础设施 车载算力与车规软硬件 以及港口重卡和公共交通 [3][5] 行动计划总体目标与思路 - 行动计划由上海市经信委 交通委 公安局于1月7日联合印发 总体思路为“模型驱动引领 应用示范带动 产业协同发展 政策举措支撑” [5] - 提出到2027年建成全球领先的高级别自动驾驶引领区 实现应用场景规模化 创新要素体系化 产业能级高端化 [5] - 具体目标包括:L4级技术在出租 重卡等场景规模化落地 实现载客超600万人次 载货超80万TEU [5] - 建成数字孪生训练场等平台 开放测试区域2000平方公里 道路超5000公里 覆盖多类场景 [5] - L2/L3级新车占比超90% 实现L4级量产 关键技术自主可控 形成完整产业生态 [5] 多样化应用场景规划 - 乘用车领域:组织智能出租示范运营 试点L3级乘用车上路 探索其在个人及单位出行场景的应用并扩大量产规模 [5] - 商用车领域:在“五个新城” 交通枢纽推进技术应用 推动洋山港智能重卡向“单车全无人”升级 以“奉浦快线”试点探索公交智慧运营 [5] - 无人装备领域:以城市巡检等为切口打造高价值应用场景 探索无人车 自主泊车的运营标准 [5] 产业生态与政策支撑 - 推进车载芯片等关键技术攻关 培育优质企业并推动智驾大模型的产学研合作 [5] - 以浦东等区域为重点 牵头打造世界级智能网联汽车产业集群与特色产业园 [5] - 支持建设测试验证平台 推进仿真技术应用 强化自动驾驶系统验证能力 [5] - 保障措施从政策 金融 人才 区域协同四个维度发力 包括完善政策与安全体系 拓宽融资渠道与创新保险 引育高层次与高技能人才 实现全市及长三角测试互通互认 [5]
想了很久,还是得招人一起把事情做大(部署/产品方向)
自动驾驶之心· 2025-12-27 17:36
行业动态与平台定位 - 行业已进入L2智能驾驶下半场 面临难点与痛点 需要更多参与者共同突破[2] - 公司作为国内自动驾驶领域技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台[2] 平台发展规划 - 公司将增加圆桌访谈、实战与工业级课程、咨询等多种形式的内容输出[2] - 平台主要面向自动驾驶培训合作 B端面向企业、高校及研究院所 C端面向学生及求职人群[5] - 平台业务包括课程开发和原创文章创作[5] 人才招募方向 - 公司招募优秀伙伴加入 合作方向包括自动驾驶产品经理、4D标注与数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向[4]
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 10:03
行业阶段与平台定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在为行业带来价值 [2] 平台发展规划 - 平台计划增加圆桌访谈 实战及工业级课程 咨询等各类输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 主要业务方向 - 业务方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向 [4] 岗位与业务说明 - 岗位主要面向自动驾驶培训合作 包括面向企业和高校研究院所的B端培训 以及面向学生和求职人群的C端培训 [5] - 岗位职责包括课程开发和原创文章创作 [5]
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型
机器之心· 2025-12-10 10:09
行业背景与问题 - 当前自动驾驶领域的大规模视觉语言模型在语义理解和逻辑推理上表现突出,但在真实道路场景中处理长尾场景、远距离目标和复杂博弈时,常出现看不清、定位不准、反应不稳定等低级错误[2] - 深层原因在于现有模型在空间感知和几何理解上的能力,远落后于其语义表达能力,导致其无法满足自动驾驶对精确空间理解的高要求[2] - 许多现有方案通过在训练中加入感知类问题来增强模型,但这仅停留在语义标签和粗略相对关系层面,未能让模型掌握可用于控制决策的强2D/3D感知能力,例如精确的检测框、分割结果和BEV感知信息[2] - 这种“弱感知的大模型”只能回答关于世界的问题,而非真正看清世界,不足以支撑自动驾驶和广义具身智能[2] 解决方案:Percept-WAM模型概述 - 引望智能与复旦大学的研究团队联合提出了面向自动驾驶的新一代大模型Percept-WAM,旨在将“看见世界”、“理解世界”和“驱动车辆行动”在一个统一模型中打通,形成从感知到决策的完整链路[3] - 该模型基于具备通用推理能力的VLM主干构建,在保留其语言与推理优势的同时,引入了World-PV和World-BEV世界Token,以统一PV和BEV视角下的2D/3D感知表示[5] - 模型接收多视角流式视频、可选的LiDAR点云以及文本查询作为输入,在同一模型上联合优化多种任务,包括PV下的2D检测、实例分割、语义分割、单目3D检测,BEV下的3D检测与BEV地图分割,以及基于多帧输入的轨迹预测任务[6] 核心技术:世界Token与统一表征 - Percept-WAM围绕World–Awareness–Action构建统一的世界Token空间,将多视角图像和3D场景压缩为一小组结构化World tokens,每个token显式携带语义特征、空间位置及置信度,用作下游任务的共享世界表征[9] - 在图像平面,World-PV tokens将每帧图像划分为规则栅格,每个栅格输出一组token,联合编码局部外观与2D/3D几何信息,基于此可统一建模2D检测、实例/语义分割、单目3D检测等任务[9] - 在鸟瞰视角,World-BEV tokens对应覆盖前方场景的固定分辨率BEV网格单元,通过与多视角PV特征的交互隐式建模PV到BEV的映射,聚合该区域的占据状态、语义类别和运动属性,显式刻画道路结构与交通参与者的空间关系[10] 核心技术:栅格条件预测与IoU感知 - 为提升城市场景中高密度目标预测的稳定性,模型引入了栅格条件预测和IoU-aware置信度回归两项关键设计[11] - 栅格条件预测将整个特征空间按PV/BEV栅格划分为多个子区域,围绕每个栅格构造局部自回归序列,不同栅格间通过注意力掩码隔离,限制跨区域无关交互,从而显著缩短单序列长度,提升高密度场景下的收敛性与训练推理效率[12] - IoU-aware置信度预测显式建模候选框的定位质量,在训练阶段监督置信度微调数据集的分值token,在推理阶段输出预测框与真实框的IoU预测结果,并将该IoU置信度分数与分类分数联合用于整体置信度排序,此设计在小目标、远距离目标及长尾类别上能提供更一致的候选排序,提升密集检测的可靠性[13] 核心技术:从感知到轨迹的决策链路 - 模型在感知类World tokens之上引入World–Action tokens,用于动作与轨迹预测的查询,这些tokens从感知tokens中聚合多视角图像与BEV表征的信息,并与车辆状态融合,在统一坐标系下直接生成未来规划轨迹或控制信号[16] - 相比“先产出BEV特征,再交由独立规划网络”的两阶段方案,World–Action在同一token空间内完成从世界建模到决策输出,使感知与规划在表示空间和时空对齐上天然一致[16] - 在轨迹解码方式上,采用轻量级MLP解码头驱动的基于查询的轨迹预测,World–Action由多组功能不同的查询组成,分别关注自车状态、PV侧特征、BEV侧特征或同时汇聚所有输入特征,以并行方式工作并输出最终轨迹[17] - 面向连续驾驶场景,模型引入流式推理,在时间维度上采用流式KV缓存策略复用历史帧的注意力缓存,仅对新帧做增量计算,同时通过更长片段训练方案和双重重计算KV缓存机制缓解训练-推理不一致带来的分布漂移与误差累积,从而在不显著牺牲规划精度的前提下降低多帧端到端推理的时延与计算开销[19] 实验结果:PV视角感知性能 - 在nuImages/nuScenes的PV任务上,Percept-WAM在2D与单目3D检测上整体匹配或超过专用模型[22] - 在2D检测上达到49.9 mAP,高于Mask R-CNN的47.8 mAP[22] - 在2D实例分割上取得41.7 mAP,高于Mask R-CNN的38.6 mAP[22] - 在单目3D检测上达到33.0 mAP,优于FCOS3D的32.1 mAP[22] - 实验观察到明显的2D–3D协同效应,在统一World-PV表征下联合建模2D与3D检测,可带来约+3.2 mAP的2D检测增益[23] - 对所有PV任务进行联合训练,各基准上性能基本维持一致或提升,说明统一的World-PV token空间有利于在多任务间共享几何与语义信息[23] 实验结果:BEV视角感知性能 - 在BEV空间中,Percept-WAM通过World-BEV tokens统一建模路面占据、动态目标与地图语义[27] - 在不使用时序信息且采用较低图像分辨率(448×796)的设置下,在nuScenes BEV 3D检测上取得58.9 mAP,整体表现优于PointPillars与SECOND等经典BEV检测器[27] - 在BEV地图分割任务上,模型可同时刻画车道线、可行驶区域、行人横穿区等静态语义要素,在部分关键类别(如可行驶区域、行人横穿区)上的分割结果可以超过BEVFusion等专用BEV模型[28] 实验结果:端到端轨迹规划性能 - 在端到端轨迹规划上,搭载World–Action轨迹解码头的Percept-WAM在nuScenes与NAVSIM上均取得有竞争力的表现[30] - 在nuScenes的开环轨迹评估中,Percept-WAM的平均轨迹L2误差约为0.36米,在同等设置下优于多数BEV-based方法(如UniAD)以及VLM-based方法(如DriveVLM)[31] - 在NAVSIM的闭环驾驶评测中,Percept-WAM采用对聚类轨迹打分的方式,获得约90.2的综合得分,同样优于大部分现有端到端方法[32] - 实验表明,两阶段训练策略(先在感知与中间任务上预训练,再在规划任务上微调)可以进一步提升端到端驾驶性能[32] 模型价值与行业意义 - Percept-WAM指出了一条面向未来的演进路径,即在统一大模型中做强世界感知,用World tokens一体化打通世界表征与行为决策,逐步沉淀可持续演进的自动驾驶世界模型[41] - 其价值不在于提供了一个更大的模型,而在于给出了一个更完整、工程上可落地的范式,即自动驾驶的大模型不应只是会聊天问答的“语文老师”,而应是一个真正能构建世界、理解世界并在其中安全行动的“世界大脑”[41]
寻找散落在各地的自动驾驶热爱者(产品/部署/世界模型等)
自动驾驶之心· 2025-12-06 11:04
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在行业激流中贡献力量并创造价值 [2] 平台发展规划 - 平台计划陆续增加圆桌访谈、实战及工业级课程、咨询等多种形式的内容输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 业务聚焦方向 - 平台业务主要聚焦于自动驾驶产品经理、4D标注与数据闭环、世界模型、视觉语言动作模型、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] - 平台岗位主要面向自动驾驶培训合作 包括面向企业与高校的B端培训以及面向学生与求职人群的C端培训 同时涉及课程开发与原创文章创作 [5]
模型部署/产品经理方向合伙人招募
自动驾驶之心· 2025-11-26 08:04
公众号内容升级与行业定位 - 公众号内容正从单篇文章解读向更深入的技术梳理、方案分析和观点讨论过渡[2] - 行业已进入技术深水区 难点和痛点需要更多参与者共同突破[2] - 平台致力于成为能为自动驾驶行业带来价值的技术创作平台[2] 近期行业技术动态 - 特斯拉、小鹏、理想等公司近期的技术分享引发了广泛深入的行业讨论[2] 人才招募与合作方向 - 招募方向涵盖自动驾驶产品经理、4D标注、数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术领域[4] - 合作岗位主要面向自动驾驶培训合作 包括B端企业、高校、研究院所培训以及C端学生和求职人群[5] - 合作内容涉及课程开发和原创文章创作[5]
留给端到端和VLA的转行时间,应该不多了......
自动驾驶之心· 2025-11-25 08:03
课程核心观点 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型演进,掌握相关前沿技术对职业发展至关重要 [1] - 行业端到端和视觉语言动作模型岗位即将饱和,为从业者留下的窗口期已不多 [1] - 推出《端到端与视觉语言动作模型自动驾驶小班课》和《自动驾驶视觉语言动作模型和大模型实战课程》,旨在帮助学员快速高效入门 [1] 自动驾驶视觉语言动作模型与大模型实战课程 - 课程聚焦视觉语言动作模型领域,内容涵盖从视觉语言模型作为自动驾驶解释器到模块化、一体化及当前主流的推理增强视觉语言动作模型 [1] - 课程配套理论基础梳理,包括视觉、语言、动作三大模块、强化学习、扩散模型等,并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [1] - 由学术界专家带队,适合刚接触大模型和视觉语言动作模型的学员 [1] 端到端与视觉语言动作模型自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解鸟瞰图感知、大语言模型、扩散模型和强化学习 [9] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [9] - 由工业界专家带队,讲师为国内顶级主机厂算法专家,拥有端到端算法研发和产品量产交付经验 [9][11] 师资团队 - 讲师团队由学术界和工业界专家组成,包括清华大学硕士生、QS30高校博士等,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][8][11] - 团队拥有多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验,并主持完成多项自动驾驶框架工具和产品量产 [6][8][11] - 一位讲师在GitHub上维护的自动驾驶与计算机视觉开源项目总Star数已超过2k [6] 目标学员与技术要求 - 学员需自备GPU,推荐算力在4090及以上 [12] - 要求具备一定的自动驾驶领域基础,熟悉基本模块,了解Transformer大模型、强化学习、鸟瞰图感知等技术概念 [13] - 需具备概率论、线性代数基础及Python和PyTorch编程能力 [13]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-09 00:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 20:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]